Olmo 3: Praxisnaher Überblick über Open-Source-KI-Modelle, Trainingsdaten und Tools

Die Arbeit von Allen AI trägt dazu bei, fortgeschrittene KI-Forschung zugänglicher zu machen. Indem Einstiegshürden gesenkt werden, können Universitätslabore, unabhängige Forschende und engagierte Entwicklerinnen und Entwickler leichter an der nächsten Generation von KI-Systemen mitwirken. Dieser Beitrag behandelt die Open-Source-Veröffentlichungen von Allen AI, insbesondere Olmo 3. Die Veröffentlichung von Olmo 3 bietet umfassenden Zugriff auf Modelle, Datensätze, Quellcode, Trainingsprotokolle und Live-Demos. In einem Bereich, in dem Transparenz häufig begrenzt ist, ist dieses Maß an Offenheit besonders bemerkenswert.

Voraussetzungen

Dieser Beitrag setzt voraus, dass Sie bereits ein grundlegendes Verständnis für Konzepte des LLM-Trainings besitzen, etwa Pretraining und Post-Training. Für eine breitere Einführung in das Training großer Sprachmodelle ist The Smol Training Playbook von Hugging Face eine hilfreiche Ressource.

Ziel dieses Artikels ist es, einen kompakten Überblick über Olmo 3 zu geben, damit Sie schneller in die praktische Umsetzung einsteigen können. Die Darstellung in Tabellen soll eine gut verständliche Gesamtsicht auf die Veröffentlichung ermöglichen, die auch in den folgenden Quellen ausführlicher behandelt wird:

  • Olmo 3 and the Open LLM Renaissance von Cameron R. Wolfe
  • Olmo 3: Charting a path through the model flow to lead open-source AI | Ai2, der Launch-Beitrag von Allen AI zu Olmo 3

Zusätzlich kann der technische Bericht zu Olmo 3 zusammen mit diesem Artikel genutzt werden, um mehr Hintergrund zu den Modellspezifikationen und zur Trainingspipeline zu erhalten. Kenntnisse zu Olmo 2 können hilfreich sein, da Olmo 3 auf der vorherigen Version aufbaut.

Wichtige Erkenntnisse

  • Das Olmo-3-Basismodell wurde zunächst auf einem breiten Textkorpus namens Dolma 3 Mix vortrainiert, anschließend mit gezielten, hochwertigen Daten aus Dolma 3 Dolmino weitertrainiert und zuletzt mit Dolma 3 Longmino für längere Kontexte erweitert.
  • Zur Familie der post-trainierten Modelle gehören Olmo 3 Instruct, Olmo 3 Think und Olmo-3 RL-Zero.
  • AI2 verbindet Olmo 3 mit OlmoTrace, einem Werkzeug, das dabei hilft, Modellausgaben auf konkrete Beispiele aus den Pretraining-Daten zurückzuführen.
  • Das Modell wurde mit Dolma 3 vortrainiert und anschließend mit der Dolci Suite post-trainiert.

Modellarchitektur

Die folgende Tabelle fasst zentrale Eigenschaften der Architektur von Olmo 3 zusammen.

Spezifikation Bedeutung
7B und 32B Parameter Olmo 3 wird in zwei Modellgrößen angeboten: mit 7B und mit 32B Parametern. In der Architekturabbildung verwendet das 7B-Modell dieselbe Anzahl an Query- (Q) und Key-Value-Heads (KV), während das 32B-Modell deutlich mehr Q-Heads als KV-Heads besitzt. Der Grund dafür ist, dass die 32B-Variante grouped query attention (GQA) nutzt, während das 7B-Modell auf multi-head attention (MHA) setzt. Für eine grundlegende Erklärung von Attention-Mechanismen kann der Abschnitt zu Attention und Varianten in einem Artikel zur Optimierung der LLM-Inferenz herangezogen werden. Das 7B-Modell ist kompakt genug für leistungsstarke Consumer-GPUs, während das 32B-Modell auf einem einzelnen Forschungsknoten betrieben werden kann.
Dense Transformer Obwohl viele Open-Weight-Modelle zuletzt Mixture-of-Experts-Architekturen verwendet haben, etwa Kimi-K2 und gpt-oss, basiert Olmo 3 auf einer dichten Decoder-only-Transformer-Architektur.
Sliding Window Attention (SWA) Die Forschenden verwenden ein Sliding-Window-Attention-Muster, um skalierbares Pretraining mit längeren Sequenzlängen zu ermöglichen und gleichzeitig die Inferenzkosten kontrollierbar zu halten. Bei diesem Verfahren berücksichtigt jedes Token vorherige Tokens innerhalb eines Fensters von 4096 Tokens. SWA wird in drei von vier Schichten eingesetzt, während die letzte Schicht stets vollständige Attention verwendet.
Rotary Position Embeddings Θ = 5e5 RoPE bildet Positionsinformationen ab, indem Query- und Key-Vektoren abhängig von der Position des jeweiligen Tokens rotiert werden. Positionskodierung ist wichtig, da Attention selbst keine inhärente Reihenfolge der Tokens kennt. Abbildung 13 im Olmo-3-Paper zeigt, dass der RoPE-Theta-Wert von 500K der wichtigste Einflussfaktor für die Ergebnisse im RULER-Benchmark ist.
YaRN YaRN steht für Yet another RoPE-scaling method und beschreibt einen recheneffizienten Ansatz, um die Kontextlänge von Transformer-Modellen zu erweitern. Die Forschenden testeten mehrere Methoden, um RoPE über die ursprüngliche Pretraining-Kontextlänge hinaus auszudehnen, wie in Abschnitt 3.6.4 beschrieben. Dabei zeigte sich, dass YaRN die besten Ergebnisse erzielt, wenn es ausschließlich auf Schichten mit vollständiger Attention angewendet wird.

Datenkuratierung

Datensatzname Größe Beschreibung und Zweck
Dolma 3 ~9,3 Billionen Tokens Der vollständige Korpus, zusammengestellt aus Webseiten, wissenschaftlichen PDFs, Code-Repositories, Mathematikaufgaben und enzyklopädischen Quellen.
Dolma 3 Mix 5,9 Billionen Tokens (~6T) Eine aus Dolma 3 abgeleitete Pretraining-Mischung. Sie enthält höhere Anteile an Code- und Mathematikdaten und nutzt starke Verfahren zur Dekontamination und Deduplizierung. allenai/olmo-3-pre-training
Dolma 3 Dolmino 100 Milliarden Tokens Der Midtraining-Datensatz, der aus Dolma 3 erstellt wurde. Er legt den Schwerpunkt auf hochwertige Daten aus Mathematik, Wissenschaft, Code und Leseverständnis, um bestimmte Fähigkeiten vor dem finalen Tuning gezielt zu stärken. allenai/dolma3_dolmino_pool
Dolma 3 Longmino ~50 Milliarden Tokens Der Long-Context-Datensatz, der aus Dolma 3 abgeleitet wurde. Er kombiniert lange Dokumente aus einem Pool von 639B Tokens mit Midtraining-Daten, damit das Modell Informationen über lange Eingaben von bis zu 65K Tokens hinweg verfolgen kann. allenai/dolma3_longmino_pool
Dolci Suite Variabel, abhängig von der jeweiligen Mischung Die Datensuite für das Post-Training. Sie enthält getrennte Mischungen für SFT, Reasoning und Tool-Nutzung, DPO, kontrastives Präferenzlernen sowie RLVR mit verifizierbaren Rewards. allenai/olmo-3-post-training
Funktion / Phase Typ Beschreibung
Pretraining Pretraining Die erste Phase besteht aus drei Teilen: dem Aufbau breiter Grundfähigkeiten, Midtraining zur Verfeinerung bestimmter Kompetenzen und der Erweiterung auf längere Kontexte.
SFT Post-Training Supervised Fine-Tuning. Diese Phase formt die Rohantworten des Modells in bestimmte Ausgabeformate, etwa Chat-Antworten oder schrittweises Schlussfolgern.
DPO Post-Training Direct Preference Optimization. Bei dieser Tuning-Methode lernt das Modell aus Präferenzdaten, indem es bessere Antworten gegenüber schwächeren Antworten bevorzugt.
RLVR Post-Training Reinforcement Learning with Verifiable Rewards. Diese spezialisierte Reinforcement-Learning-Phase fördert hochwertige Reasoning-Traces, indem verifizierbare Ergebnisse belohnt werden, beispielsweise korrekte Resultate in Mathematik oder Code.

OlmoTrace

OlmoTrace ermöglicht es Nutzenden, Textstellen zu markieren und sie auf die entsprechende Quelle in den Trainingsdaten zurückzuführen. Dadurch eignet sich das Tool für die Prüfung von Halluzinationen, die Erkennung von Kontamination, die Unterscheidung zwischen Reasoning und Memorization sowie für die Untersuchung von Skalierungsgesetzen, indem sichtbar wird, wie sich Schlussfolgerungsfähigkeiten mit mehr Daten und Rechenleistung entwickeln.

Olmo 3 auf allgemeiner Cloud-GPU-Infrastruktur ausführen

Allgemeine Cloud-GPU-Server können genutzt werden, um mit diesen Modellen zu experimentieren.

Der Blogbeitrag zu Olmo 3 enthält eine interaktive Abbildung, die die jeweilige Trainingsphase zusammen mit den zugehörigen Datensätzen zeigt.

Tool Beschreibung
Olmo-core Ein modernes Framework für verteiltes Modelltraining. Es handelt sich um eine Pretraining-Codebasis, die auf hohe Effizienz ausgelegt ist. Docs: OLMo-core v2.4.0
Open Instruct Eine Pipeline für das Post-Training.
datamap-rs Ein reines Rust-Toolkit zur Bereinigung großer Datensätze.
duplodocus Ein Werkzeug für besonders effiziente unscharfe Deduplizierung.
OLMES Ein Toolkit für reproduzierbare Evaluationen. Es enthält OlmoBaseEval, das bei der Entwicklung des Olmo-3-Basismodells eingesetzt wurde.
decon Ein Tool, das Testsätze aus Trainingsdaten entfernt.

FAQ

Warum nutzten die Forschenden Hybrid Sharded Data Parallel (HSDP)?

Das Olmo-3-Team verwendete Hybrid Sharded Data Parallel, kurz HSDP, vor allem zur Verbesserung von Trainingseffizienz und Skalierbarkeit. HSDP kombiniert Fully Sharded Data Parallelism innerhalb eines Knotens mit klassischem Data Parallelism über mehrere Knoten hinweg. Dadurch wird der Kommunikationsaufwand zwischen Knoten reduziert, was bei großen Modellen besonders wichtig ist, und die Synchronisierung von Parametern und Gradienten während der Modellaktualisierung wird effizienter. Indem besonders kommunikationsintensive Operationen innerhalb eines Knotens gehalten werden, kann HSDP große Modelle wie Olmo 3 Base besser skalieren und schneller trainieren.

Wie wurden die Daten für Olmo 3 kuratiert?

Phase Zentrale Datenquellen Wichtige Verarbeitungsschritte Ziel
Pretraining Common Crawl [A.2.1], olmOCR PDFs, Stack-Edu-Code-Daten, arXiv, FineMath, Wikipedia und Wikibooks. Deduplizierung mit Hash- und MinHash-Verfahren [A.2.2], Qualitätsfilterung mit fastText, tokenbegrenzte Mischung und Upsampling hochwertiger Daten. Aufbau einer vielfältigen, hochwertigen Grundlage mit 6T Tokens.
Midtraining Synthetische Mathematikdaten wie TinyMATH und CraneMath, Code-Daten aus Stack-Edu und Nemotron, QA-Daten aus Reddit-to-Flashcards sowie Reasoning-Traces. Microanneals zum Testen von Datensätzen, Integrationstests, Dekontamination und die gezielte Aufnahme von Instruktions- und Thinking-Daten. Verbesserung von Mathematik-, Code-, Reasoning- und QA-Fähigkeiten mit 100B Tokens.
Long-Context Extension olmOCR PDFs mit langen Dokumenten und synthetische Aggregationsaufgaben. Dokumentenfilterung mit gzip, Packing, intra-document masking und YaRN für Positions-Embeddings. Ermöglichung eines 65K-Token-Kontextfensters mit langen Dokumenten unter Verwendung von 50B bis 100B Tokens.
Post-Training (Think) Reasoning-Traces aus OpenThoughts3 und SYNTHETIC-2, Mathematik-, Code- und Chat-Prompts sowie DPO-Paare [4.3.1] aus Qwen3-Modellen. SFT-, DPO- und RL-Phasen, verifizierbare Rewards und Delta-Learning für kontrastive Paare. Optimierung des Modells für Reasoning in Mathematik, Code und Chat sowie für präzises Befolgen von Anweisungen.
Post-Training (Instruct) Daten für Function Calling, WildChat, präzise Instruction-Following-Prompts, Multi-Turn-DPO-Daten und längenkontrollierte Antworten. Fokus auf Nutzbarkeit, Tool-Einsatz und kurze Ausgaben, ergänzt durch RL für allgemeinen Chat und Function Calling. Optimierung des Modells für Chat-Nutzbarkeit, Tool-Integration und kürzere Antworten.
Post-Training (RL-Zero) Gefilterte Mathematikdaten aus DAPO und Omega, Code-, Instruction-Following- und Chat-Teilmengen sowie dekontaminierte Evaluationen. Reinforcement Learning von Grund auf mit verifizierbaren Rewards und einfachen Prompt-Vorlagen. Benchmarking von Reinforcement-Learning-Algorithmen mit transparenten, kontaminationsfreien Daten.

Wie machten die Forschenden das RL-Training viermal effizienter?

Die Forschenden steigerten die Effizienz des Reinforcement-Learning-Trainings durch in-flight weight updates, auch als Pipeline RL bezeichnet, durch continuous batching mit dynamischem Austausch von Prompts zur Verringerung von GPU-Leerlaufzeiten sowie durch mehrere Verbesserungen beim Threading.

Abschließende Gedanken

Olmo 3 ist eine bemerkenswerte Veröffentlichung. Die dreistufige Trainingspipeline, bestehend aus Pretraining auf Dolma 3 Mix, Midtraining auf Dolma 3 Dolmino und Long-Context-Erweiterung mit Dolma 3 Longmino, führte zu einer Familie post-trainierter Modelle. Dazu gehören Instruct, Think und RL-Zero, die jeweils für unterschiedliche Fähigkeiten optimiert sind. Der offene Zugang zu Modellen, Datensätzen, Code und Trainingsprotokollen macht es besonders spannend zu beobachten, wie Forschende und Praktiker diese Veröffentlichung nutzen werden.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

n8n Workflow-Automatisierung: Open-Source-Guide

AI/ML, Tutorial
Vijonavor 8 Minuten n8n Workflow-Automatisierung: Open-Source-Automation für Apps, APIs und Services Automatisierung ist heute ein fester Bestandteil moderner Softwareentwicklung und IT-Betriebsprozesse. Ob Teams Daten zwischen verschiedenen Systemen synchronisieren oder komplexe Geschäftsabläufe…
Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Web Grounding für LLMs mit Python

AI/ML, Tutorial
Vijonavor 1 Stunde Web Grounding für Large Language Models mit Python umsetzen Wenn Sie einem Large Language Model Fragen zu aktuellen oder bevorstehenden Ereignissen stellen, kann die Antwort ungenau sein. Der…
Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

QwenLong-L1.5: Long-Context Reasoning mit KI

AI/ML, Tutorial
Vijonavor 1 Stunde QwenLong-L1.5: Long-Context Reasoning mit speichergestützter KI Large Language Models (LLMs) entwickeln sich im Bereich logisches Schlussfolgern rasant weiter. Long-Context Reasoning bleibt jedoch weiterhin eine der anspruchsvollsten Herausforderungen. Zwar…