Kimi K2 Post-Training: Tool-Use, Datensynthese und Reinforcement Learning

In einem früheren Beitrag haben wir Kimi K2 vorgestellt – inklusive MoE-Design, dem MuonClip-Optimizer und verschiedenen Optimierungen rund um Performance. Ein zentrales Thema haben wir dabei jedoch nicht ausführlich genug behandelt: das Post-Training. Und genau das könnte sich als der spannendste Teil des Gesamtbildes herausstellen.

Kimi K2 ist besonders interessant, weil es sich um ein agentisches Modell handelt, das von Beginn an mit Tool-Nutzung als Kernfähigkeit trainiert wurde. In dem, was viele als „Era of Experience“ bezeichnen, rückt Post-Training in den Mittelpunkt. Wie das Kimi-Team im Launch-Post zu Kimi K2 beschreibt: „LLMs learn from their own self-generated interactions – receiving rewards that free them from the limits of human data and surpass human capabilities.“ Das passt zu einer breiteren Verschiebung im Diskurs – weg von reiner menschlicher Aufgabenkompetenz (oft als AGI definiert) hin zu Leistungsniveaus, die darüber hinausgehen.

Dieser Artikel betrachtet Kimi K2s Ansatz für Post-Training: wie agentische synthetische Daten erzeugt werden, wie Verhalten mit verifizierbaren Rewards und Self-Critic-Signalen ausgerichtet wird und wie Reinforcement-Learning-Infrastruktur skaliert wird.

Für mehr Kontext empfehlen wir, den Kimi K2- und K1.5-Tech-Report sowie das Muon-Paper zum Skalieren von LLM-Training parallel zu diesem Artikel zu lesen.

Du kannst gern alle Abschnitte überspringen, die für dich nicht relevant sind.

Key Takeaways

Post-Training ist für agentische Modelle wie Kimi K2 entscheidend: Es schärft das Verhalten des Modells, damit es gleichzeitig nützlich und sicher wird – besonders in der „Era of Experience“, in der LLMs über selbst erzeugte Interaktionen lernen und dabei Fähigkeiten entwickeln können, die über menschliche Grenzen hinausgehen.

Kimi K2 kombiniert im Post-Training synthetische Datenerzeugung für SFT und RL: Es nutzt großskalige synthetische Tool-Use-Daten für Supervised Fine-Tuning (SFT) und setzt anschließend auf ein Reinforcement-Learning-(RL)-Framework, das sowohl verifizierbare als auch nicht verifizierbare Reward-Signale integriert.

Die Synthese von Tool-Use-Daten erfolgt in drei Schritten: zuerst wird eine Sammlung von Tool-Spezifikationen aufgebaut (aus realen Tools und synthetischen Tools), anschließend werden vielfältige Agents und Tasks erzeugt, und zuletzt werden erfolgreiche Multi-Turn-Trajektorien in simulierten Umgebungen generiert.

Das Verifiable Rewards Gym ist ein zentraler Baustein in K2s RL-Ansatz: Es nutzt einfache, regelbasierte Funktionen mit binären Rewards (1 für korrekt, 0 für falsch) über Bereiche wie Math, STEM, Logic, Complex Instruction Following, Faithfulness, Coding und Safety hinweg.

Nicht verifizierbare Rewards basieren auf einem Self-Critic-Ansatz: Für subjektive Aufgaben wie Creative Writing führt K2 paarweise Vergleiche seiner eigenen Outputs durch – gesteuert durch Rubrics, die Core Values (Clarity, Conversational Fluency, Objective Interaction) sowie preskriptive Regeln (kein initiales Lob, keine Rechtfertigung) enthalten.

On-policy Rollouts stärken die Bewertungskompetenz des Critics bei komplexen Aufgaben ohne klare Reward-Funktionen: Verifizierbare Rewards werden in Rollouts genutzt, um den Critic fortlaufend zu aktualisieren. Durch dieses Transfer-Learning aus verifizierbaren Tasks verbessert sich die Genauigkeit bei Aufgaben mit nicht verifizierbaren Rewards.

Bevor wir tiefer einsteigen, klären wir kurz den Unterschied zwischen Pre-Training und Post-Training – für alle, die damit noch nicht vertraut sind.

Pre-training vs Post-training

Pre-Training beschreibt die erste Trainingsphase eines LLM, in der ein Modell auf enormen Datenmengen trainiert wird – typischerweise gesammelt aus dem Internet, aus Büchern und weiteren Quellen. In dieser Phase lernt das Modell mittels Self-Supervised Learning, das nächste Token vorherzusagen, und entwickelt dabei sprachliches oder multimodales Verständnis, Faktenwissen und Reasoning-Fähigkeiten. Das erfordert sehr viel Compute und führt zu einem Basismodell, das zwar Text erzeugen kann, aber häufig noch Schwierigkeiten mit Instruction-Following oder der Ausrichtung an menschlichen Präferenzen hat.

Post-Training umfasst Methoden, die nach dem Pre-Training eingesetzt werden, um das Verhalten des Modells gezielt nützlicher und sicherer zu machen. Dazu zählen Supervised Fine-Tuning (SFT) auf hochwertigen Instruction-Following-Datasets sowie Reinforcement Learning from Human Feedback (RLHF), um Outputs stärker an menschlichen Werten auszurichten. Post-Training verwandelt ein rohes, vortrainiertes Modell in ein System, das Anweisungen zuverlässig befolgen, Dialoge führen und erwartungskonform agieren kann.

Wie zuvor erwähnt, liegt der Fokus hier auf Kimi K2s Post-Training-Pipeline. Diese verbindet großskalige synthetische Tool-Use-Daten für SFT mit einem einheitlichen RL-Framework, das sowohl verifizierbare Rewards als auch Self-Critic-Signale verwendet.

Wir starten mit Supervised Fine-Tuning und wechseln danach zu Reinforcement Learning.

Supervised Fine-Tuning

Supervised Fine-Tuning (SFT) passt vortrainierte Modelle an konkrete Use Cases an, indem sie auf gelabelten Daten weitertrainiert werden. Dadurch verbessert sich die Leistung bei Aufgaben wie Question Answering, Summarization und Conversation.

Aus dem vorherigen Kimi-K2-Artikel über den token-effizienten Muon-Optimizer ist wichtig: Muon ist nicht nur Teil von K2s Pre-Training – er wird auch im SFT eingesetzt. Die Forschenden empfehlen außerdem, den Optimizer für alle zu nutzen, die das Modell weiter fine-tunen möchten.

Zusätzlich wurde die Critic-Fähigkeit von K2 bereits in der SFT-Phase initialisiert (K2, Abschnitt 3.2.2), damit das Modell nicht verifizierbare Rewards beurteilen kann.

Im nächsten Abschnitt skizzieren wir, wie das SFT-Dataset aufgebaut wurde.

Data Synthesis for Tool Use

Hier beschreiben die Forschenden drei Stufen:

1) Aufbau eines Repositories für Tool-Spezifikationen

Der erste Schritt besteht darin, ein Repository mit Tool-Spezifikationen aus realen Tools und LLM-orientierten Tools zu erstellen. Für die Beschaffung wurden zwei Wege genutzt: (1) Es wurden 3000+ MCP-Tools aus GitHub-Repositories gesammelt. (2) Es wurden Methoden aus WizardLM eingesetzt – beschrieben als „creating large amounts of instruction data with varying levels of complexity using LLM instead of humans“ – um synthetische Tools „weiterzuentwickeln“.

2) Erzeugung von Agents und Tasks aus Tool-Sets

Als nächstes wird für jedes Tool-Set, das aus dem Tool-Repository gesampelt wird, ein Agent erstellt. Die Forschenden erzeugten tausende unterschiedliche Agents, indem sie System Prompts mit verschiedenen Tool-Bundles kombinierten. Für jede Agent-Konfiguration wurden außerdem Tasks und Evaluation Rubrics erstellt.

3) Generierung von Multi-Turn-Trajektorien

Abschließend werden für jeden Agent und jede Task Trajektorien erzeugt. Dafür wurden simulierte Umgebungen entwickelt, in denen Tool-Calls ausgeführt werden konnten und ein persistenter State erhalten blieb. Die Interaktionen zwischen synthetischen User-Agents und Tool-Using-Agents wurden als Multi-Turn-Trajektorien geloggt – behalten wurden nur jene Interaktionen, die gemäß vordefinierter Rubrics erfolgreich waren.

Reinforcement Learning

Kimi K1.5: Scaling Reinforcement Learning with LLMs hat gezeigt, wie innovative Ansätze Reinforcement Learning im großen Maßstab wirksam machen können. RL wird häufig als token-effizienter und generalisierungsstärker als SFT betrachtet und gilt deshalb als besonders lohnendes Optimierungsfeld. In diesem Abschnitt betrachten wir K2s Verifiable Rewards Gym (Abschnitt 3.2.1 im Tech Report) sowie die Rubrics für nicht verifizierbare Rewards.

Verifiable Rewards

Reinforcement Learning mit verifizierbaren Rewards (RLVR) nutzt einfache, regelbasierte Funktionen, um die Korrektheit der Antworten eines Modells zu bewerten. Das Reward-Signal ist binär: Für korrekte Outputs gibt es eine 1, für falsche eine 0. Bei Kimi K2 können die Kriterien dabei so simpel sein wie das Bestehen der Test Cases bei einer Coding-Aufgabe.

Moonshot hat dieses Prinzip zu einem Verifiable Rewards Gym ausgebaut – einer erweiterbaren Sammlung von Task-Templates mit klar definierter Evaluation-Logik, die aus Datensätzen in den unten dargestellten Domänen besteht:

Domain Techniques / Data Sources Focus Areas Evaluation Methods
Math, STEM, and Logic Expert annotations, internal QA extraction pipelines, open datasets (e.g., NuminaMath, AIMO-2) Multi-hop tabular reasoning, logic puzzles (24-game, Sudoku, riddles, cryptarithms, Morse code decoding) – all of moderate task difficulty Tags to increase coverage of undercovered domains, difficulty filtering using SFT model’s pass@k accuracy
Complex Instruction Following Two verification mechanisms: (1) Code interpreter looking at instructions with verifiable outputs (e.g., length, style constraints) (2) LLM-as-judge for more nuanced evaluation; Additional “hack-check” layer to ensure model isn’t pretending to have followed instructions. Training data comes from three sources: expert-crafted prompts, automated instruction augmentation (inspired by AutoIF), and a model fine-tuned to generate edge cases. Instruction following, edge case robustness, consistency over dialogues Rubric-based scoring, “hack-check” layer for deceptive completions
Faithfulness Sentence-level faithfulness judge trained using FACTS Grounding framework, verifying factual grounding of self-generated reasoning chains, automated detection of unsupported claims in output Factual accuracy, grounding verification, claim validation Automated faithfulness scoring, unsupported claim detection
Coding & Software Engineering Open-source coding datasets (e.g., OpenCoder, Kodcode), human-written unit tests from pre-training data, GitHub PRs and issues Competitive programming, pull request generation, multi-file reasoning Unit test pass rates, execution in real sandboxes (Kubernetes-based) (K1.5, section 2.6.4)
Safety Human-curated seed prompts, prompt evolution pipeline: attack model, target model, judge model Jailbreak detection, toxic or harmful outputs Attack model crafts adversarial prompts to test the target model’s limits, while the judge model assesses the response, awarding a binary reward (success/failure) based on a task-specific rubric

Non-verifiable Rewards

Für Aufgaben, die auf subjektiven Präferenzen beruhen – etwa Creative Writing und Open-Ended Question Answering – wird ein Self-Critic-Reward eingesetzt. In diesen Fällen führt K2 paarweise Vergleiche zwischen eigenen Kandidaten-Outputs durch.

Category Rubric Description
Core: to encompass Kimi’s fundamental values as a helpful AI assistant Clarity & Relevance Be concise, stay on-topic, avoid unnecessary details
Core: to encompass Kimi’s fundamental values as a helpful AI assistant Conversational Fluency Natural dialogue, appropriate engagement, judicious follow-ups
Core: to encompass Kimi’s fundamental values as a helpful AI assistant Objective Interaction Stay grounded, avoid metacommentary and excessive praise
Prescriptive: aim to eliminate reward hacking No Initial Praise Don’t start with “Great question!” or similar compliments
Prescriptive: aim to eliminate reward hacking No Justification Don’t explain why your response is good or successful
Human Annotated: For specific instructional contexts Varies Varies

Rollouts

Im Reinforcement Learning und in der Agent-Entwicklung beschreiben Rollouts den Prozess, bei dem ein Agent durch Episoden beziehungsweise Interaktionssequenzen mit einer Umgebung geführt wird, um Erfahrungsdaten zu sammeln. Während eines Rollouts folgt der Agent seiner aktuellen Policy, führt Aktionen in der Umgebung aus, erhält Observations und Rewards und setzt die Interaktionen fort, bis die Episode endet – entweder natürlich oder nach einer maximalen Anzahl von Schritten. Dadurch entsteht eine Trajektorie, also eine Abfolge von State-Action-Reward-Tuples, die für das Lernen genutzt werden kann.

In diesem Setup wurden On-policy Rollouts mit verifizierbaren Rewards eingesetzt, um den Critic iterativ zu aktualisieren und dessen Bewertungsgenauigkeit unter der jeweils neuesten Policy zu steigern. Anders gesagt: Verifizierbare Rewards wurden genutzt, um die Schätzung von nicht verifizierbaren Rewards zu verbessern.

Für alle, die ihre Intuition rund um Reinforcement Learning verbessern möchten, empfehlen wir den Hugging Face Deep Reinforcement Learning Course.

Note

Die RL-Infrastruktur wurde in diesem Artikel nicht behandelt (der Artikel wird bald aktualisiert). Wer tiefer einsteigen möchte, sollte in der Zwischenzeit die Kimi-Papers lesen (K1.5, Abschnitt 2.6 sowie K2, Abschnitt 3.3 und Appendix G).

Conclusion

Durch die Kombination großskaliger synthetischer Tool-Use-Daten für SFT mit verifizierbaren und Self-Critic-Rewards für RL zeigt Kimi K2 eine robuste Methodik zur Ausrichtung von Modellverhalten. Dieser Fokus auf Post-Training bei agentischen Modellen – insbesondere innerhalb der „Era of Experience“ – macht Kimi K2 zu einem bemerkenswerten Modell auf dem Weg zu intelligenteren und anpassungsfähigeren KI-Systemen.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Linux-Befehle in PowerShell nutzen: pwsh & WSL erklärt

AI/ML, Tutorial
VijonaHeute um 11:05 Uhr Linux-Befehle in PowerShell nutzen: Plattformübergreifende Workflows mit pwsh und WSL PowerShell und Linux sind heute deutlich enger miteinander verzahnt als früher. Durch die Weiterentwicklung von plattformübergreifendem PowerShell…
Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Qwen3-Coder: 405B MoE Coding-Modell + Qwen Code CLI Anleitung

AI/ML, Tutorial
VijonaHeute um 11:01 Uhr Qwen3-Coder: Agentisches MoE-Coding-Modell mit 405B Parametern In letzter Zeit gab es eine ganze Reihe neuer Qwen-Veröffentlichungen. Besonders hervor sticht Qwen3-Coder: ein agentisches Mixture-of-Experts-(MoE)-Modell mit 405B Gesamtparametern und…