Qwen3-Coder: Agentisches MoE-Coding-Modell mit 405B Parametern

In letzter Zeit gab es eine ganze Reihe neuer Qwen-Veröffentlichungen. Besonders hervor sticht Qwen3-Coder: ein agentisches Mixture-of-Experts-(MoE)-Modell mit 405B Gesamtparametern und 35B aktiven Parametern, das für leistungsstarke Coding-Unterstützung und den mehrstufigen Einsatz von Tools ausgelegt ist. Das sehr kurze Zeitfenster (nicht einmal zwei Wochen) zwischen Kimi-K2 und dem Debüt von Qwen3-Coder zeigt, wie offensiv Teams spezialisierte, offene agentische Coding-Modelle direkt zu Entwicklern bringen. Auffällig an diesem Modell sind der geringere Gesamtumfang (im Vergleich zu Kimi K2 mit 1 Billion Parametern) und zugleich starke Benchmark-Ergebnisse.

Qwen3 wurde im Mai dieses Jahres veröffentlicht, und im Schlussteil des technischen Reports heißt es: “we will work on improving model architecture and training methods for the purposes of effective compression, scaling to extremely long contexts, etc. In addition, we plan to increase computational resources for reinforcement learning, with a particular emphasis on agent-based RL systems that learn from environmental feedback.”

Im Juli brachte das aktualisierte Qwen3-Modell überarbeitete Pretraining- und Reinforcement-Learning-(RL)-Phasen mit sich. Dabei kam eine angepasste Variante von Group Relative Policy Optimization (GRPO) zum Einsatz, genannt Group Sequence Policy Optimization (GSPO), sowie ein skalierbares System, das 20 000 unabhängige Umgebungen parallel ausführen kann. Wir sind sehr gespannt (auf die Veröffentlichung eines aktualisierten technischen Reports?), um mehr über die Details zu erfahren.

Wichtigste Erkenntnisse

  • 405B-Parameter-Mixture-of-Experts-Modell mit 35B aktiven Parametern
  • 160 Experten, davon 8 pro Token aktiv
  • 256K Token Kontextlänge, mit YaRN auf 1M erweiterbar
  • Hoher SWE-bench verified Score bei Long-Horizon-Tasks (69.6 mit 500 Turns vs Claude-Sonnet-4 mit 70.4% bei 500 Turns)
  • Trainiert mit Group Sequence Policy Optimization
  • Kleinere 30B A3B Instruct-Variante läuft auf einer einzelnen H100 GPU
  • Qwen Code CLI als Fork der Gemini CLI Open Source gestellt

Hier folgt ein Überblick auf hohem Niveau, damit du schnell mit den internen Details von Qwen3-Coder vertraut bist.

Modellübersicht

Spezifikation Relevanz
Mixture of Experts (MoE) Das Mixture-of-Experts-(MoE)-Design ermöglicht eine größere Modellskala und bessere Qualität bei gleichzeitig geringeren Compute-Kosten. Es nutzt spärliche Feedforward-Neural-Network-(FFN)-Layer, die als Experten fungieren, sowie einen Gating-Mechanismus, der Tokens zu den Top-k-Experten routet. Dadurch wird pro Token nur ein Teil der Parameter aktiviert.
405B Parameter, 35B aktive Parameter Da Qwen3-Coder auf einer MoE-Architektur basiert, gibt es sowohl Gesamt- als auch aktive Parameter. „Total parameters“ meint die vollständige Summe aller Parameter im Modell, inklusive aller Experten-Netzwerke, des Router- bzw. Gating-Netzwerks sowie gemeinsamer Komponenten – unabhängig davon, welche Experten während der Inferenz tatsächlich genutzt werden. Davon abzugrenzen sind „active parameters“: der Parameter-Teil, der für eine konkrete Eingabe verwendet wird, typischerweise die aktivierten Experten plus Shared Components.
Anzahl der Experten =160, Anzahl aktivierter Experten = 8 Das ist sehr interessant, weil (click link).
Kontextlänge = 256K Tokens nativ, 1M mit YaRN YaRN (Yet another RoPE extensioN method) ist eine compute-effiziente Technik, um das Kontextfenster transformerbasierter Sprachmodelle zu erweitern. In Qwen3-Coder erhöht sie die Kontextlänge auf bis zu eine Million.
GSPO (Group Sequence Policy Optimization) In Qwens jüngstem Paper wird GSPO vorgestellt, mit Ergebnissen, die auf höhere Trainingseffizienz und bessere Performance gegenüber GRPO (Group Relative Policy Optimization) hindeuten. GSPO stabilisiert MoE-RL-Training und kann das Design von RL-Infrastruktur vereinfachen.

Auf Benchmarks ist die Performance von Qwen3-Coder beeindruckend: Der Score liegt bei 67.0% auf SWE bench verified – und steigt auf 69.6% mit 500 Turns. Das 500-Turn-Ergebnis simuliert einen realistischeren Coding-Workflow, bei dem das Modell Feedback (wie Testfehlschläge) lesen, Code anpassen, Tests erneut ausführen und den Prozess wiederholen kann, bis die Lösung funktioniert.swe-bench

Implementierung

Dieser Artikel enthält Implementierungsdetails für eine kleinere Variante: Qwen3-Coder-30B-A3B-Instruct. Wer sich über den Namen wundert: Diese Variante besitzt 30 Milliarden Gesamtparameter und 3 Milliarden aktive Parameter. „Instruct“ zeigt, dass es sich um eine instruction-tuned Variante des Basismodells handelt.

Implementierungs-Spezifikationen

  • Anzahl der Parameter: 30.5B total, 3.3B activated
  • Anzahl der Layer: 48
  • Anzahl der Attention Heads (GQA): 32for Q, and 4 for KV
  • Anzahl der Experten und aktivierter Experten: 128 Experten, 8 aktivierte Experten
  • Kontextlänge: 262,144 native context (ohne YaRN)

Wie wir sehen, hat dieses Modell leicht abweichende Spezifikationen, kann dafür aber auf einer einzelnen H100 GPU betrieben werden.

Schritt 1: GPU Virtual Machine einrichten

Starte damit, eine GPU Virtual Machine zu erstellen!

Schritt 2: Web Console

Nachdem deine GPU Virtual Machine vollständig bereitgestellt wurde, kannst du die Web Console öffnen.

Schritt 3: Abhängigkeiten installieren

apt install python3-pip
pip3 install transformers>=4.51.0

Schritt 4: Modell ausführen

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-Coder-30B-A3B-Instruct"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "Write a quick sort algorithm."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=65536
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

content = tokenizer.decode(output_ids, skip_special_tokens=True)

print("content:", content)

Qwen Code: Open-Source CLI

Qwen Code ist eine Open-Source-Command-Line-Interface-Lösung, mit der Entwickler das Qwen3-Coder-Modell für agentische Coding-Aufgaben nutzen können. Es handelt sich um einen Fork der Gemini CLI, der so angepasst wurde, dass er nahtlos mit den Fähigkeiten von Qwen3 zusammenarbeitet.

Wir haben die Schritte aufgenommen, um die CLI zu installieren, zu konfigurieren und sie mit dem Qwen3-Coder-Modell auszuführen.

Schritt 1: Node.js installieren (Version 20 oder neuer)

Bevor du startest, stelle sicher, dass Node.js20+ auf deinem Gerät installiert ist. In deinem Terminal:

Schritt 2: Qwen Code CLI installieren

Sobald Node.js bereit ist, installiere Qwen Code global:

Damit ist der Befehl qwen-code von überall auf deinem System aus verfügbar.

Schritt 3: API-Key abrufen

Hole dir einen API-Key von openAI

export OPENAI_API_KEY="your_api_key_here"
export OPENAI_BASE_URL="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
export OPENAI_MODEL="qwen3-coder-plus"

Schritt 4: Vibe Code

qwencliType qwen in dein Terminal ein, und du kannst direkt vibe coden.

Für alternative Wege, Qwen3-Coder zu nutzen, sieh dir den Qwen Coder Blog Post an.

Qwen3 From Scratch

Hier ist ein Notebook, das für alle interessant sein könnte, die ihre Intuition zur zugrunde liegenden Architektur von Qwen3 verbessern möchten.

Implement Qwen3 Mixture-of-Experts From Scratch by Sebastian Raschka: “this notebook runs Qwen3-Coder-30B-A3B-Instruct (aka Qwen3 Coder Flash) and requires 80 GB of VRAM (e.g., a single A100 or H100).”

Abschließende Gedanken

Wir freuen uns sehr darauf, dass die Community mit diesen offenen agentischen Coding-Modellen wie Qwen3-Coder, Kimi K2, Devstral experimentiert und sie in ihre Workflows integriert. Was uns bei Qwen3-Coder am meisten beeindruckt, ist das Kontextfenster. Mit 246K Tokens, erweiterbar auf eine Million, sind wir gespannt, wie effektiv dieses Modell in realen Software-Engineering-Use-Cases im Vergleich zu alternativen Open-Weight-Modellen ist. Mit seinem starken Kontextfenster, der Verfügbarkeit zugänglicher kleinerer Varianten wie Qwen3-Coder-30B-A3B-Instruct und der Einführung der Qwen Code CLI ist dieses Modell bestens positioniert, um Entwicklern leistungsfähige, agentische Coding-Unterstützung zu bieten.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Linux-Befehle in PowerShell nutzen: pwsh & WSL erklärt

AI/ML, Tutorial
VijonaHeute um 11:05 Uhr Linux-Befehle in PowerShell nutzen: Plattformübergreifende Workflows mit pwsh und WSL PowerShell und Linux sind heute deutlich enger miteinander verzahnt als früher. Durch die Weiterentwicklung von plattformübergreifendem PowerShell…