Qwen3-Coder: Agentisches MoE-Coding-Modell mit 405B Parametern
In letzter Zeit gab es eine ganze Reihe neuer Qwen-Veröffentlichungen. Besonders hervor sticht Qwen3-Coder: ein agentisches Mixture-of-Experts-(MoE)-Modell mit 405B Gesamtparametern und 35B aktiven Parametern, das für leistungsstarke Coding-Unterstützung und den mehrstufigen Einsatz von Tools ausgelegt ist. Das sehr kurze Zeitfenster (nicht einmal zwei Wochen) zwischen Kimi-K2 und dem Debüt von Qwen3-Coder zeigt, wie offensiv Teams spezialisierte, offene agentische Coding-Modelle direkt zu Entwicklern bringen. Auffällig an diesem Modell sind der geringere Gesamtumfang (im Vergleich zu Kimi K2 mit 1 Billion Parametern) und zugleich starke Benchmark-Ergebnisse.
Qwen3 wurde im Mai dieses Jahres veröffentlicht, und im Schlussteil des technischen Reports heißt es: “we will work on improving model architecture and training methods for the purposes of effective compression, scaling to extremely long contexts, etc. In addition, we plan to increase computational resources for reinforcement learning, with a particular emphasis on agent-based RL systems that learn from environmental feedback.”
Im Juli brachte das aktualisierte Qwen3-Modell überarbeitete Pretraining- und Reinforcement-Learning-(RL)-Phasen mit sich. Dabei kam eine angepasste Variante von Group Relative Policy Optimization (GRPO) zum Einsatz, genannt Group Sequence Policy Optimization (GSPO), sowie ein skalierbares System, das 20 000 unabhängige Umgebungen parallel ausführen kann. Wir sind sehr gespannt (auf die Veröffentlichung eines aktualisierten technischen Reports?), um mehr über die Details zu erfahren.
Wichtigste Erkenntnisse
- 405B-Parameter-Mixture-of-Experts-Modell mit 35B aktiven Parametern
- 160 Experten, davon 8 pro Token aktiv
- 256K Token Kontextlänge, mit YaRN auf 1M erweiterbar
- Hoher SWE-bench verified Score bei Long-Horizon-Tasks (69.6 mit 500 Turns vs Claude-Sonnet-4 mit 70.4% bei 500 Turns)
- Trainiert mit Group Sequence Policy Optimization
- Kleinere 30B A3B Instruct-Variante läuft auf einer einzelnen H100 GPU
- Qwen Code CLI als Fork der Gemini CLI Open Source gestellt
Hier folgt ein Überblick auf hohem Niveau, damit du schnell mit den internen Details von Qwen3-Coder vertraut bist.
Modellübersicht
| Spezifikation | Relevanz |
|---|---|
| Mixture of Experts (MoE) | Das Mixture-of-Experts-(MoE)-Design ermöglicht eine größere Modellskala und bessere Qualität bei gleichzeitig geringeren Compute-Kosten. Es nutzt spärliche Feedforward-Neural-Network-(FFN)-Layer, die als Experten fungieren, sowie einen Gating-Mechanismus, der Tokens zu den Top-k-Experten routet. Dadurch wird pro Token nur ein Teil der Parameter aktiviert. |
| 405B Parameter, 35B aktive Parameter | Da Qwen3-Coder auf einer MoE-Architektur basiert, gibt es sowohl Gesamt- als auch aktive Parameter. „Total parameters“ meint die vollständige Summe aller Parameter im Modell, inklusive aller Experten-Netzwerke, des Router- bzw. Gating-Netzwerks sowie gemeinsamer Komponenten – unabhängig davon, welche Experten während der Inferenz tatsächlich genutzt werden. Davon abzugrenzen sind „active parameters“: der Parameter-Teil, der für eine konkrete Eingabe verwendet wird, typischerweise die aktivierten Experten plus Shared Components. |
| Anzahl der Experten =160, Anzahl aktivierter Experten = 8 | Das ist sehr interessant, weil (click link). |
| Kontextlänge = 256K Tokens nativ, 1M mit YaRN | YaRN (Yet another RoPE extensioN method) ist eine compute-effiziente Technik, um das Kontextfenster transformerbasierter Sprachmodelle zu erweitern. In Qwen3-Coder erhöht sie die Kontextlänge auf bis zu eine Million. |
| GSPO (Group Sequence Policy Optimization) | In Qwens jüngstem Paper wird GSPO vorgestellt, mit Ergebnissen, die auf höhere Trainingseffizienz und bessere Performance gegenüber GRPO (Group Relative Policy Optimization) hindeuten. GSPO stabilisiert MoE-RL-Training und kann das Design von RL-Infrastruktur vereinfachen. |
Auf Benchmarks ist die Performance von Qwen3-Coder beeindruckend: Der Score liegt bei 67.0% auf SWE bench verified – und steigt auf 69.6% mit 500 Turns. Das 500-Turn-Ergebnis simuliert einen realistischeren Coding-Workflow, bei dem das Modell Feedback (wie Testfehlschläge) lesen, Code anpassen, Tests erneut ausführen und den Prozess wiederholen kann, bis die Lösung funktioniert.swe-bench
Implementierung
Dieser Artikel enthält Implementierungsdetails für eine kleinere Variante: Qwen3-Coder-30B-A3B-Instruct. Wer sich über den Namen wundert: Diese Variante besitzt 30 Milliarden Gesamtparameter und 3 Milliarden aktive Parameter. „Instruct“ zeigt, dass es sich um eine instruction-tuned Variante des Basismodells handelt.
Implementierungs-Spezifikationen
- Anzahl der Parameter: 30.5B total, 3.3B activated
- Anzahl der Layer: 48
- Anzahl der Attention Heads (GQA): 32for Q, and 4 for KV
- Anzahl der Experten und aktivierter Experten: 128 Experten, 8 aktivierte Experten
- Kontextlänge: 262,144 native context (ohne YaRN)
Wie wir sehen, hat dieses Modell leicht abweichende Spezifikationen, kann dafür aber auf einer einzelnen H100 GPU betrieben werden.
Schritt 1: GPU Virtual Machine einrichten
Starte damit, eine GPU Virtual Machine zu erstellen!
Schritt 2: Web Console
Nachdem deine GPU Virtual Machine vollständig bereitgestellt wurde, kannst du die Web Console öffnen.
Schritt 3: Abhängigkeiten installieren
apt install python3-pip
pip3 install transformers>=4.51.0
Schritt 4: Modell ausführen
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-Coder-30B-A3B-Instruct"
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
# prepare the model input
prompt = "Write a quick sort algorithm."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# conduct text completion
generated_ids = model.generate(
**model_inputs,
max_new_tokens=65536
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
content = tokenizer.decode(output_ids, skip_special_tokens=True)
print("content:", content)
Qwen Code: Open-Source CLI
Qwen Code ist eine Open-Source-Command-Line-Interface-Lösung, mit der Entwickler das Qwen3-Coder-Modell für agentische Coding-Aufgaben nutzen können. Es handelt sich um einen Fork der Gemini CLI, der so angepasst wurde, dass er nahtlos mit den Fähigkeiten von Qwen3 zusammenarbeitet.
Wir haben die Schritte aufgenommen, um die CLI zu installieren, zu konfigurieren und sie mit dem Qwen3-Coder-Modell auszuführen.
Schritt 1: Node.js installieren (Version 20 oder neuer)
Bevor du startest, stelle sicher, dass Node.js20+ auf deinem Gerät installiert ist. In deinem Terminal:
node -v
Schritt 2: Qwen Code CLI installieren
Sobald Node.js bereit ist, installiere Qwen Code global:
npm install -g qwen-code
Damit ist der Befehl qwen-code von überall auf deinem System aus verfügbar.
Schritt 3: API-Key abrufen
Hole dir einen API-Key von openAI
export OPENAI_API_KEY="your_api_key_here"
export OPENAI_BASE_URL="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
export OPENAI_MODEL="qwen3-coder-plus"
Schritt 4: Vibe Code
qwencliType qwen in dein Terminal ein, und du kannst direkt vibe coden.
Für alternative Wege, Qwen3-Coder zu nutzen, sieh dir den Qwen Coder Blog Post an.
Qwen3 From Scratch
Hier ist ein Notebook, das für alle interessant sein könnte, die ihre Intuition zur zugrunde liegenden Architektur von Qwen3 verbessern möchten.
Implement Qwen3 Mixture-of-Experts From Scratch by Sebastian Raschka: “this notebook runs Qwen3-Coder-30B-A3B-Instruct (aka Qwen3 Coder Flash) and requires 80 GB of VRAM (e.g., a single A100 or H100).”
Abschließende Gedanken
Wir freuen uns sehr darauf, dass die Community mit diesen offenen agentischen Coding-Modellen wie Qwen3-Coder, Kimi K2, Devstral experimentiert und sie in ihre Workflows integriert. Was uns bei Qwen3-Coder am meisten beeindruckt, ist das Kontextfenster. Mit 246K Tokens, erweiterbar auf eine Million, sind wir gespannt, wie effektiv dieses Modell in realen Software-Engineering-Use-Cases im Vergleich zu alternativen Open-Weight-Modellen ist. Mit seinem starken Kontextfenster, der Verfügbarkeit zugänglicher kleinerer Varianten wie Qwen3-Coder-30B-A3B-Instruct und der Einführung der Qwen Code CLI ist dieses Modell bestens positioniert, um Entwicklern leistungsfähige, agentische Coding-Unterstützung zu bieten.


