Content

1 Wichtige Erkenntnisse zu Kimi K2.5
2 Modellüberblick
3 Die wichtigsten Themen des Artikels
4 Agent Swarm
5 PARL
6 Post-Training
7 Vereinheitlichte Agent-Reinforcement-Learning-Umgebung
8 Leistung
9 K2.5 auf einer Cloud-GPU-Instanz ausführen
10 FAQ
11 Abschließende Gedanken

Vijona

vor 34 Minuten

Kimi K2.5: Architektur, Training, Leistung und Bereitstellungsleitfaden

Anfang des Jahres stellte Moonshot AI mit Kimi K2.5 eine weitere bemerkenswerte Veröffentlichung vor. Dieses Modell für visuelle agentische Intelligenz zählt auf OpenRouter zu den besonders beliebten Modellen, was auf eine breite Nutzung hindeutet. Gleichzeitig übertrifft es in mehreren Benchmarks proprietäre Closed-Source-Modelle und weist damit auf relevante Fortschritte in der Forschung hin. Aus Sicht von Architektur, Trainingsmethodik und Implementierung ist das Modell daher besonders interessant.

Neben leistungsstarken Modellen veröffentlicht Moonshot AI zudem sehr detaillierte technische Berichte mit zahlreichen wertvollen Einblicken. Ergänzend zu diesem Beitrag ist der technische Bericht zu Kimi-K2.5 daher eine wichtige Lektüre.

Die Veröffentlichung von Kimi K2.5 enthält bereits nachtrainierte Checkpoints und steht unter einer Modified-MIT-Lizenz zur Verfügung.

Dieses Tutorial konzentriert sich auf die Punkte, die besonders interessant erscheinen. Im Mittelpunkt steht dabei die Frage, welche konkreten Maßnahmen das Kimi-K2-Team ergriffen hat, um eine so starke Leistung zu erreichen. Zusätzlich wird gezeigt, wie sich das Modell auf einer Cloud-GPU-Instanz ausführen lässt.

Wichtige Erkenntnisse zu Kimi K2.5

Kimi K2.5 nutzt ebenso wie Kimi K2 eine Mixture-of-Experts-Architektur mit insgesamt 1 Billion Parametern und 32 Milliarden aktiven Parametern. Wahrscheinlich trägt das Modell den Namen K2.5 statt K3, weil es K2 durch groß angelegtes gemeinsames Pre-Training mit 15 Billionen visuellen und textuellen Tokens erweitert.
Der größte Unterschied zwischen Kimi K2 und K2.5 liegt in der stärkeren Ausrichtung auf gemeinsames Vision-Training, insbesondere im Pre-Training und in der Reinforcement-Learning-Phase des Post-Trainings. Das Supervised Fine-Tuning bleibt hingegen rein textbasiert.
Das Modell wird unter einer Modified-MIT-Lizenz bereitgestellt und enthält nachtrainierte Checkpoints. Es steht in drei Modi zur Verfügung: Instant Mode, Thinking Mode und Agent Mode.
Mit Agent Swarm und PARL, also Parallel Agent Reinforcement Learning, werden Konzepte eingeführt, die die begrenzte Kapazität eines einzelnen Agenten bei komplexen Szenarien ausgleichen sollen.
Die Toggle-Heuristik verbessert die Token-Effizienz im Reinforcement Learning, indem sie zwischen Inference-Time-Scaling und budgetbeschränkter Optimierung wechselt.
Der Decoupled Encoder Process, kurz DEP, gleicht Lastunterschiede und Speicherschwankungen aus, die entstehen, wenn visuelle Eingaben unterschiedlicher Größe wie Bilder oder Videos gemeinsam mit Text verarbeitet werden.
Für anspruchsvollere Aufgaben kann Kimi K2.5 einen Agentenschwarm mit bis zu 100 Unteragenten koordinieren und dadurch parallele Workflows mit bis zu 1.500 Tool-Aufrufen ausführen. Diese Unteragenten sind auf Rollen wie AI Researcher, Physics Researcher oder Fact Checker spezialisiert.

Modellüberblick

Architektur: Transformer, Mixture-of-Experts (MoE)

Die Mixture-of-Experts-Architektur ermöglicht es, die Modellgröße und die Modellqualität zu erhöhen, ohne dass die Rechenkosten im gleichen Verhältnis ansteigen. Sie basiert auf sparsamen Feedforward-Neural-Network-Schichten, den sogenannten Experten, sowie auf einem Gate-Netzwerk beziehungsweise Router, das Tokens gezielt an die Top-k-Experten weiterleitet. Da pro Token nur ein Teil der Parameter aktiviert wird, kann die Architektur deutlich größer werden, ohne dass die Rechenlast proportional zunimmt.

Parameter: 1 Billion Gesamtparameter, 32 Milliarden aktive Parameter

Da K2 auf einer MoE-Architektur basiert, wird zwischen Gesamtparametern und aktiven Parametern unterschieden. Die Gesamtparameter umfassen sämtliche Parameter des vollständigen Modells, also alle Expertennetzwerke, das Routing- beziehungsweise Gating-Netzwerk sowie alle gemeinsam genutzten Komponenten, unabhängig davon, ob sie bei der Inferenz tatsächlich verwendet werden. Aktive Parameter bezeichnen dagegen nur den Teil, der für eine konkrete Eingabe genutzt wird, also in der Regel die aktivierten Experten zusammen mit den gemeinsamen Komponenten.

Aufmerksamkeitsmechanismus: MLA (Multi-head Latent Attention)

MLA wurde in DeepSeek V2, genauer in Abschnitt 2.1, als Aufmerksamkeitsmechanismus eingeführt, um die Inferenz effizienter zu machen. deepseek v2MLA komprimiert die Eingabe der Aufmerksamkeit zunächst in einen niedrigdimensionalen latenten Vektor, aus dem sich Schlüssel und Werte später wieder rekonstruieren lassen. Da K2 MLA verwendet, kann QK-Norm, eine Normalisierungsmethode für Query-Key-Matrizen, beim Skalieren des Muon-Trainings nicht eingesetzt werden, weil die Key-Matrizen innerhalb von MLA während der Inferenz nicht vollständig materialisiert werden. Als Ausgleich ergänzten die K2-Forschenden deshalb QK-Clip, eine Weight-Clipping-Methode, die die bei großskaligem, Muon-optimiertem Training auftretenden Attention-Logits begrenzt.

Optimizer: MuonClip

Muon ist zwar ein tokeneffizienter Optimizer, muss für großskaliges Training jedoch angepasst werden. MuonClip, vorgestellt in Abschnitt 2.1 des technischen Kimi-K2-Berichts, erweitert Muon um Weight Decay, konsistentes RMS Matching und QK-Clip.

Anzahl der Experten: 384 ; Ausgewählte Experten pro Token: 8 ; Anzahl gemeinsamer Experten: 1

Um diese Designentscheidung besser einzuordnen, hilft ein erneuter Blick auf die Sparsity-Diskussion aus der früheren Kimi-K2-Analyse, insbesondere darauf, wie eine höhere Gesamtzahl an Experten zu stärkerer Sparsity führt.

Anzahl der Layer: 61 (einschließlich 1 Dense Layer)

Mit „Layers“ ist die Anzahl der Transformer-Blöcke gemeint, aus denen das Modell besteht. Diese Blöcke verarbeiten die Eingabe schrittweise und helfen dem Modell dabei, zunehmend abstrakte interne Repräsentationen aufzubauen. Eine Dense Layer (vollständig verbundene Schicht) hingegen verbindet jede Eingabeeinheit mit jeder Ausgabeeinheit.

Anzahl der Attention Heads: 64 ; Attention Hidden Dimension: 7168

Attention Heads erlauben es dem Modell, sich gleichzeitig auf unterschiedliche Teile der Eingabe zu konzentrieren. Jeder einzelne Head lernt dabei, andere Beziehungsmuster innerhalb der Daten zu erfassen.

MoE Hidden Dimension (pro Experte): 2048

Jeder einzelne Experte verarbeitet eine 2048-dimensionale Repräsentation.

Aktivierungsfunktion: SwiGLU

Das ist wenig überraschend. SwiGLU hat sich inzwischen als Standard-Aktivierungsfunktion in modernen großen Sprachmodellen etabliert. ex: gpt-oss

Vision Encoder: MoonViT-3D (400M Parameter)

Im Vergleich zu Kimi K2 ist das eine neue Ergänzung. Wer Kimi-VL kennt, dürfte MoonViT bereits einordnen können. Kimi K2.5 verwendet MoonViT-3D, ein kontinuierlich weiter vortrainiertes SigLIP auf Basis von Bild-Text- und Video-Text-Paaren. Dabei werden aufeinanderfolgende Frames in Vierergruppen zusammengefasst, durch den gemeinsam genutzten MoonViT-Encoder verarbeitet und anschließend auf Patch-Ebene zeitlich gemittelt. Dadurch kann K2.5 Videos verarbeiten, die bei gleichem Kontextfenster viermal länger sind.

Die wichtigsten Themen des Artikels

Der Artikel befasst sich mit drei eng miteinander verbundenen Themen.

Vision-Language-Integration durch gemeinsame Optimierungsmethoden, mit denen sich Text- und Bildmodalitäten gegenseitig verbessern. Sowohl Pre-Training als auch Reinforcement Learning sind multimodal ausgelegt.
Skalierbare Parallelisierung durch Agent Swarm, wodurch spezialisierte Agenten unterschiedliche Teilaufgaben gleichzeitig bearbeiten können.
Reinforcement Learning, das im Modell auf verschiedene Weise eingesetzt wird. Diese Aspekte werden im weiteren Verlauf des Artikels näher erläutert:

- Gemeinsames multimodales RL
- Ergebnisbasiertes visuelles RL
- PARL (Parallel Agent Reinforcement Learning)

Der Artikel beschreibt außerdem Inferenzoptimierungen, die die Latenz um bis zu 4,5× senken und gleichzeitig die Aufgabenleistung verbessern. Dank dieser parallelisierungsbasierten Verbesserungen bei der Inferenz kann Kimi K2.5 Videos verarbeiten, die im gleichen Kontextfenster bis zu viermal länger sind, während Bild- und Video-Encoder weiterhin vollständig dieselben Gewichte teilen.

Agent Swarm

Mit Agent Swarm umfasst das System folgende Elemente:

dynamische Aufgabenzerlegung
Instanziierung von Unteragenten
parallele Planung von Teilaufgaben

Auf der Kimi-Website lassen sich K2.5 Agent Swarms direkt ausprobieren.

Abschnitt 5.2 des technischen Berichts zu K2.5 zeigt, wie sich dieses Design in messbaren Leistungswerten niederschlägt. Das Agent-Swarm-Framework wird anhand von drei Benchmarks bewertet: BrowseComp für anspruchsvolle Web-Recherche und tiefgehendes Reasoning, WideSearch für großskalige Retrieval-Aufgaben sowie ein interner Swarm Bench, der reale Komplexität abbilden soll.

Der interne Benchmark misst die Fähigkeiten des Systems in den Bereichen Orchestrierung, Skalierbarkeit und Koordination über vier unterschiedliche Domänen hinweg. Besonders interessant ist dabei der Fokus auf die Skalierung von Aufgaben wie Informationsbeschaffung, Downloading, Interpretation und Texterstellung.

Aufgaben der In-House Swarm Bench

WildSearch:

Uneingeschränkte Sammlung von Informationen aus dem gesamten Internet ohne Begrenzungen.

Batch Download:

Groß angelegte Beschaffung verschiedenster Dateitypen und Materialien.

WideRead:

Verarbeitung und Verständnis großer Textmengen über mehr als 100 Dokumente hinweg.

Long-Form Writing:

Erstellung umfangreicher, gut strukturierter Texte mit einem Umfang von mehr als 100.000 Wörtern.

PARL

In K2.5 bezeichnet Parallel Agent Reinforcement Learning (PARL) einen Ansatz, bei dem das System mithilfe von Umgebungsfeedback und explorativem Reinforcement Learning lernt, Arbeit parallel zu verteilen. Gesteuert wird dieser Prozess durch einen trainierbaren Orchestrator-Agenten. Die Effizienz wird verbessert, indem dieser Orchestrator gemeinsam mit kleineren Sub-Agenten trainiert wird und das Verhältnis der Inferenzinstanzen dynamisch angepasst werden kann.

Die Forschenden beschreiben außerdem einen Fehlerfall namens Serial Collapse. Dabei greift der Orchestrator auf nur einen einzigen Agenten zurück, obwohl parallele Ressourcen verfügbar wären. PARL wirkt dem durch gestufte Rewards entgegen: In frühen Trainingsphasen fördern die Belohnungen parallele Ausführung, während spätere Phasen stärker darauf ausgerichtet sind, die Aufgabe erfolgreich abzuschließen.

Post-Training

Supervised Fine-Tuning

Es wirkt zunächst überraschend, dass diese Phase ausschließlich textbasiert ist. Die Forschenden stellten fest, dass menschlich entworfene visuelle Trajektorien im Supervised Fine-Tuning die Generalisierung verschlechtern. Textbasiertes SFT liefert dagegen bessere Ergebnisse. Eine mögliche Erklärung dafür ist, dass das gemeinsame Pre-Training bereits eine Vision-Text-Ausrichtung erzeugt, die die Generalisierung fördert.

Die synthetische Datengenerierungspipeline erzeugt hochwertige Kandidatenantworten in Textform mithilfe von K2, K2 Thinking und einer Reihe proprietärer interner Expertenmodelle. Gerade diese internen Modelle sind besonders interessant. Der daraus entstehende Instruction-Tuning-Datensatz enthält vielfältige Prompts und legt den Schwerpunkt auf Schlussfolgern und Tool-Calling-Fähigkeiten.

Reinforcement Learning

Neu an diesem Reinforcement-Learning-Ansatz ist, dass die RL-Domänen nicht nach Eingabemodalitäten wie Bild oder Text organisiert sind, sondern nach Fähigkeiten wie Wissen, Reasoning, Coding oder agentischem Verhalten.

Vereinheitlichte Agent-Reinforcement-Learning-Umgebung

Um den Aufwand für die Anpassung und Implementierung von Umgebungen zu reduzieren, setzt das System auf eine standardisierte Gym-ähnliche Schnittstelle mit austauschbaren Komponenten wie Toolset, Judge sowie Modulen zur Prompt-Diversifizierung und Verbesserung der Befolgung von Anweisungen.

Toolset: Unterstützt unterschiedliche Werkzeuge in Verbindung mit Sandboxes.
Judge: Stellt mehrdimensionale Reward-Signale bereit.
Prompt Diversification and Instruction-Following Enhancement: Verbessert die Befolgung von Anweisungen und sorgt gleichzeitig für vielfältigere Prompts.

Leistung

Abschnitt 5 des technischen Berichts zu Kimi K2.5 analysiert die Leistung des Modells ausführlich. Auf Basis dieser Ergebnisse zeigt K2.5 vor allem in den folgenden Bereichen eine starke Performance:

Reasoning und allgemeine Fähigkeiten
Komplexes Coding und Software Engineering
Agentische Fähigkeiten
Vision, Reasoning, Wissen und Wahrnehmung
Videoverständnis
Computer-Use-Fähigkeit

K2.5 auf einer Cloud-GPU-Instanz ausführen

Es gibt mehrere Möglichkeiten, verschiedene Varianten von Kimi K2.5 auszuführen, darunter vLLM, SGLang und Unsloth. Dabei sollten die Speicheranforderungen beachtet werden: Das hybride Reasoning-Modell mit 1T Parametern benötigt 600 GB Speicherplatz, während die quantisierte Unsloth-Dynamic-1.8-Bit-Version den Bedarf auf 240 GB reduziert, also um 60 Prozent: Kimi-K2.5-GGUF

Am Anfang steht das Bereitstellen einer Cloud-GPU-Instanz und die Verbindung per SSH. Dabei sollte im Vorfeld genau eingeplant werden, wie viele GPUs für den jeweiligen Bereitstellungsansatz erforderlich sind.

vLLM-Implementierung

Dieses Setup orientiert sich am verlinkten Usage Guide.

Copy Code

uv pip install -U vllm \ --torch-backend=auto \ --extra-index-url https://wheels.vllm.ai/nightly

In diesem Beispiel ist -tp auf 1 gesetzt, sodass die einzelnen Layer und mathematischen Operationen des Modells über Shards auf einer einzelnen GPU verteilt werden. Die Originaldokumentation verwendet hingegen -tp 8, um das Modell per 8-facher Tensor-Parallelität auf 8 GPUs zu verteilen.

Copy Code

vllm serve $MODEL_PATH -tp 1 --mm-encoder-tp-mode data --trust-remote-code --tool-call-parser kimi_k2 --reasoning-parser kimi_k2

SGLang-Implementierung

Dieses Setup orientiert sich an der im Kimi-K2.5-Deployment-Guide beschriebenen SGLang-Implementierung.

Copy Code

pip install "sglang @ git+https://github.com/sgl-project/sglang.git#subdirectory=python" pip install nvidia-cudnn-cu12==9.16.0.29

Copy Code

sglang serve --model-path $MODEL_PATH --tp 8 --trust-remote-code --tool-call-parser kimi_k2 --reasoning-parser kimi_k2

Wichtige Hinweise zu den Parametern:

--tool-call-parser kimi_k2: Erforderlich, wenn die Nutzung von Tools aktiviert ist.
--reasoning-parser kimi_k2: Erforderlich, um Reasoning-Inhalte korrekt zu verarbeiten.

FAQ

Warum heißt das Modell K2.5 und nicht K3?

K2.5 baut direkt auf der K2-Basis auf und wurde durch groß angelegtes gemeinsames Pre-Training auf 15 Billionen visuellen und textuellen Tokens erweitert. Da die Kernarchitektur, einschließlich MoE-Design, Parameteranzahl und MuonClip-Optimizer, unverändert bleibt, positioniert das Team das Modell als Weiterentwicklung von K2 und nicht als vollständig neue Generation.

Warum übertrifft frühe Vision-Fusion mit geringerem Vision-Anteil eine aggressive späte Einbindung von Vision-Daten?

Die Ablationsstudien des Papers zeigen, dass die frühe Einbindung von Vision-Daten mit einem moderaten Verhältnis von 10:90 zwischen Vision und Text konsistent bessere Ergebnisse liefert als späte Fusion mit einem Verhältnis von 50:50. Eine späte Fusion führt zu einem Dip-and-Recover-Muster, bei dem die Textleistung zunächst aufgrund des Modalitätswechsels einbricht. Eine frühe Fusion vermeidet diese Störung und ermöglicht beiden Modalitäten, von Beginn an gemeinsame Repräsentationen zu entwickeln.

Warum verbessert visuelles RL die Textleistung?

Das Paper zeigt, dass ergebnisbasiertes visuelles RL die Werte bei MMLU-Pro, GPQA-Diamond und LongBench v2 verbessert. Eine naheliegende Erklärung ist, dass visuelle Aufgaben wie Zählen, OCR und strukturierte Extraktion die Kalibrierung schärfen und Unsicherheit in vergleichbaren textbasierten Reasoning-Mustern verringern.

Warum ist SFT textbasiert, obwohl K2.5 ein multimodales Modell ist?

Das Hinzufügen menschlich entworfener visueller Trajektorien in der SFT-Phase verschlechterte nach den Ergebnissen die Generalisierung. Da das gemeinsame Pre-Training bereits eine starke Vision-Text-Ausrichtung schafft, reicht textbasiertes SFT aus, um visuelles Reasoning zu aktivieren, ohne das Risiko eines Overfittings auf visuelle Demonstrationen mit geringer Vielfalt zu erhöhen. Im Paper wird das als „Zero-Vision SFT“ bezeichnet.

Wie verhindert Toggle, dass Modelle zu tokeneffizient auf Kosten der Reasoning-Qualität werden?

Toggle wechselt nach jeweils m Iterationen zwischen zwei Trainingsphasen. In einer Phase wird das Modell dazu angeregt, unter einem Token-Budget möglichst knapp zu schlussfolgern; in der anderen darf es das volle Token-Limit nutzen. Dieses Design verringert das Risiko, dass das Modell zu stark von kurzen Ausgaben abhängig wird und bei schwierigeren Aufgaben nicht mehr von zusätzlicher Rechenzeit profitieren kann. In der Praxis senkt Toggle den Token-Verbrauch um etwa 25 bis 30 Prozent, während die Leistung nahezu unverändert bleibt.

Worin unterscheidet sich Agent Swarm davon, Tools einfach parallel aufzurufen?

Agent Swarm ist keine statische Parallelisierung. Über PARL lernt der Orchestrator, wann und wie parallelisiert werden soll. Er zerlegt Aufgaben dynamisch, instanziiert spezialisierte Unteragenten und plant ihre Ausführung gleichzeitig. Entscheidend ist, dass die Unteragenten jeweils eigene Arbeitskontexte behalten und nur aufgabenrelevante Ergebnisse an den Orchestrator zurückgeben. Dadurch entsteht ein proaktives Kontextmanagement statt einer reaktiven Trunkierung.

Warum werden Unteragenten während des PARL-Trainings eingefroren?

Das parallele Training des Orchestrators und der Sub-Agenten erschwert die Zuordnung, welche Komponente welchen Anteil am Ergebnis hatte. Eine richtige Antwort kann dennoch schwache Beiträge einzelner Sub-Agenten enthalten, während eine falsche Antwort nicht automatisch bedeutet, dass alle Sub-Agenten versagt haben. Um diese Unsicherheit zu vermeiden, hielt das Team die Sub-Agenten unverändert und nutzte deren Ausgaben als Beobachtungen aus der Umgebung. Dadurch konnte der Orchestrator zuverlässiger trainiert werden, während Koordinationsentscheidungen klar von der Ausführung auf Ebene der Sub-Agenten getrennt blieben.

Was ist Serial Collapse und wie wird es behandelt?

Serial Collapse beschreibt den Fall, dass der Orchestrator trotz verfügbarer paralleler Kapazitäten standardmäßig auf die Ausführung mit nur einem Agenten zurückfällt. Anders gesagt, er wählt den Weg des geringsten Widerstands. PARL begegnet diesem Verhalten mit einem Instantiation Reward, rparallel, der in frühen Trainingsphasen ausdrücklich die Erzeugung von Unteragenten belohnt. Diese Hilfsbelohnung wird anschließend schrittweise auf null abgesenkt, sodass das Modell am Ende auf erfolgreichen Aufgabenabschluss statt auf Parallelisierung um ihrer selbst willen optimiert.

Was bedeutet es, wenn Hyperparameter auf 0 annealed werden? (Siehe Abschnitt 3 zur PARL-Belohnung)

Im Kontext des Agent-Swarm-Trainings von Kimi K2.5 bedeutet das Annealing von Hyperparametern auf 0, dass die Gewichte zusätzlicher Belohnungen im Verlauf des Reinforcement-Learning-Prozesses schrittweise abgesenkt werden.

Anfangsphase: Die Gewichte λ1 und λ2 liegen zunächst über null, sodass das Modell gewissermaßen „Stützräder“ erhält, die Exploration von Parallelisierung über rparallel fördern und gleichzeitig über rfinish sicherstellen, dass Teilaufgaben tatsächlich abgeschlossen werden.
Übergangsphase: Diese Werte werden mit der Zeit reduziert, damit das Modell nicht lernt, das Belohnungssystem auszutricksen oder Parallelität über die Qualität der Ergebnisse zu stellen.
Endphase: Sobald die Gewichte 0 erreichen, optimiert das Modell ausschließlich auf das Hauptziel hin, nämlich die Aufgabe erfolgreich über rperf zu lösen.

Was ist spurious parallelism und wie wird sie verhindert? (Siehe Abschnitt 3 zur PARL-Belohnung)

Spurious Parallelism beschreibt eine Form von Reward Hacking, bei der der Orchestrator viele Sub-Agenten startet, obwohl die Aufgabe nicht sinnvoll aufgeteilt wurde. Ziel ist lediglich, die Parallelisierungsmetriken besser aussehen zu lassen.

Dieses Problem wird durch drei Mechanismen adressiert:

Der rfinish-Reward fördert den erfolgreichen Abschluss der zugewiesenen Teilaufgaben und trägt so dazu bei, dass jede Zerlegung praktisch sinnvoll und valide ist.
Die Metrik Critical Steps konzentriert sich auf den längsten Ausführungspfad statt auf die Gesamtzahl der Schritte. Dadurch bringt das Erzeugen vieler unnötiger Teilaufgaben keinen Vorteil, wenn dadurch die Latenz nicht verkürzt wird.
Durch Hyperparameter Annealing werden zusätzliche Belohnungen für parallele Ausführung schrittweise entfernt, sodass sich das Modell am Ende auf das eigentliche Aufgabenergebnis konzentriert.

Welche GPU-Speicheranforderungen gelten für K2.5?

Das vollständige Modell mit 1T Parametern benötigt etwa 600 GB Speicherplatz. Die quantisierte Unsloth-Dynamic-1.8-Bit-GGUF-Version reduziert diesen Bedarf auf ungefähr 240 GB. Für Full-Precision-Deployments über vLLM oder SGLang muss das Modell mithilfe von Tensor-Parallelität über mehrere GPUs verteilt werden. Die Dokumentation empfiehlt dafür -tp 8 für eine 8-fache Verteilung.

Was ist der Decoupled Encoder Process (DEP) und warum ist er für die Trainingseffizienz wichtig?

Bei herkömmlichem Pipeline Parallelism wird der Vision Encoder zusammen mit den Text-Embeddings in Stage 0 platziert. Dies kann zu einer erheblichen Ungleichverteilung der Arbeitslast führen, da sich Bildeingaben hinsichtlich Auflösung und Anzahl stark unterscheiden können. DEP (Disaggregated Efficient Pipeline) begegnet diesem Problem, indem der Vision-Forward-Pass, das Backbone-Training und die Rekompensation der Vision-Komponenten während jedes Trainingsschritts in drei separate Phasen aufgeteilt werden. Dadurch wird die Arbeitslast gleichmäßiger verteilt, ohne dass spezielle Pipeline-Konfigurationen erforderlich sind. Auf diese Weise erreicht K2.5 trotz des zusätzlichen multimodalen Workloads rund 90 % der Effizienz eines reinen Texttrainings.

Abschließende Gedanken

Der bemerkenswerteste Aspekt von K2.5 ist die strukturierte Vorgehensweise, mit der Moonshot AI das Modell entwickelt hat. Das Team begann mit einem gemeinsamen multimodalen Pre-Training, um eine solide Vision-Text-Grundlage aufzubauen. Anschließend folgte ein ausschließlich textbasiertes Supervised Fine-Tuning, um die Generalisierungsfähigkeit zu erhalten. Abschließend wurde das Reinforcement Learning nicht nach Eingabemodalitäten, sondern nach Fähigkeiten organisiert. Diese Abfolge deutet auf ein klares Verständnis darüber hin, welche Kompetenzen das Modell in den einzelnen Entwicklungsphasen erwerben soll.

Besonders zukunftsweisend ist PARL, da Parallelisierung als ein Verhalten betrachtet wird, das das System selbst erlernen soll, anstatt es im Voraus fest vorzugeben. Auch der Umgang mit Serial Collapse durch gestufte Rewards zeigt einen starken Fokus auf zuverlässiges Agentenverhalten im großen Maßstab. Toggle verfolgt dieselbe Philosophie, indem Inference-Time Scaling und Budgetoptimierung nicht als gegensätzliche Ziele behandelt, sondern miteinander in Einklang gebracht werden.

Für Nutzer und Entwickler ist K2.5 zudem ungewöhnlich zugänglich: Es handelt sich um ein MoE-Modell mit 1 Billion Parametern und 32 Milliarden aktiven Parametern, das unter einer Modified-MIT-Lizenz veröffentlicht wurde und mit vLLM oder SGLang genutzt werden kann. Die quantisierten GGUF-Versionen von Unsloth senken die Einstiegshürde zusätzlich. Wer multimodale Reasoning-Systeme testen oder Agenten entwickeln möchte, die parallele Workflows koordinieren, sollte K2.5 daher besonders aufmerksam verfolgen.

Moonshot AI stärkt darüber hinaus weiterhin das Open-Model-Ökosystem, indem leistungsfähige Modelle gemeinsam mit ausführlichen technischen Berichten veröffentlicht werden. Es bleibt spannend zu beobachten, welche zukünftigen Veröffentlichungen sowohl von diesem Team als auch von anderen Open-Model-Projekten erscheinen werden, die starke Dokumentation mit einer breiten Community-Adoption verbinden.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Jetzt loslegen

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

LangMem SDK für KI-Agenten: Langzeitgedächtnis Guide

AI/ML, Tutorial

vor 1 Woche

Vijona8 Juni um 13:37 Uhr LangMem SDK für KI-Agenten: Langzeitgedächtnis, Architektur, Integration, Leistung und Alternativen KI-Agenten, die auf großen Sprachmodellen basieren, waren lange mit einer wesentlichen Einschränkung konfrontiert: Ihr Gedächtnis ist…

Sliding Window Attention erklärt: Effiziente Transformer für lange Sequenzen

AI/ML, Tutorial

vor 1 Woche

Vijona8 Juni um 13:07 Uhr Sliding Window Attention: Eine effiziente Methode für lange Sequenzen in modernen Sprachmodellen Moderne Sprachmodelle arbeiten weniger effizient, sobald Eingabesequenzen sehr lang werden, weil klassische Attention-Mechanismen quadratisch…

KI Daily Digest: Informationsflut automatisiert reduzieren

AI/ML, Tutorial

vor 1 Woche

Vijona8 Juni um 11:26 Uhr Wie KI mit einem Daily Digest gegen Informationsüberflutung helfen kann Wie viele andere Menschen habe ich mich oft von der ununterbrochenen Flut an Benachrichtigungen und Informationen…

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!

Kubernetes Produkt-Vergleiche

Bald verfügbar!

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!