Content

1 Wichtigste Erkenntnisse
2 Die besten lokalen agentischen LLMs im September 2025
3 Modelle lokal hosten
4 Coding mit lokalen Large Language Models
5 Fazit

Vijona

16. Dezember 2025

Vibe Coding und der Aufstieg KI-gestützter Softwareentwicklung

Vibe Coding – also der Einsatz von LLMs, um die Code-Erstellung zu unterstützen oder Code sogar direkt generieren zu lassen – gewinnt rasant an Bedeutung, und das aus gutem Grund. Indem einfachere Teile des Engineering-Workflows automatisiert werden, lässt sich die Entwicklungszeit deutlich reduzieren. Immer häufiger entstehen sogar komplette Projekte durch eine Reihe präziser, gut formulierter Prompts an ein LLM.

Angetrieben wird diese Entwicklung durch die stetig wachsende GPU-Cloud. Egal, ob du einen proprietären Dienst wie ChatGPT oder Anthropic nutzt oder dein eigenes LLM in der Cloud über Plattformen wie die GPU-Infrastruktur von centron betreibst: Diese Modelle benötigen leistungsstarke GPU-Rechenleistung, um zuverlässig zu laufen. Genau diese Systeme sind die Motoren, die die KI-Coding-Revolution aktuell vorantreiben.

Doch was passiert, wenn die GPU-Cloud nicht verfügbar ist?

In diesem Tutorial zeigen wir eine praxisnahe Antwort auf genau diese Frage. Wir schauen uns gemeinsam empfehlenswerte Optionen für lokale LLMs an, welche lokalen Geräte sich dafür eignen und welche Offline-Vibe-Coding-Ansätze du vermutlich sonst kaum findest.

Wichtigste Erkenntnisse

Die Leistungsfähigkeit deiner lokalen Hardware entscheidet, welche Modellgrößen du realistisch ausführen kannst. Für dieses Tutorial empfehlen wir mindestens 16 GB nutzbaren Arbeitsspeicher.

Lokales, agentisches Vibe Coding ist inzwischen möglich – unter anderem dank kompakter „Thinking“-Modelle wie Qwen3 2507 und Nemotron Nano v2.

Der Einstieg gelingt auf jedem Betriebssystem unkompliziert mit lokalen Tools wie LM Studio und Ollama.

Die besten lokalen agentischen LLMs im September 2025

Wenn du mit lokalem agentischem Coding starten möchtest, hast du eine große Auswahl an Modellen. Das ist einerseits positiv – andererseits macht es die Entscheidung schwieriger, welche Varianten wirklich sinnvoll sind. Viele Modellfamilien existieren in mehreren Versionen und Größen, und die passende Auswahl für das eigene Gerät ist dadurch eine zusätzliche Herausforderung. Wir haben unsere Tests auf einem MacBook Pro aus 2021 mit M1 Pro und 16 GB Arbeitsspeicher durchgeführt. Schauen wir uns einige der stärksten lokalen agentischen LLMs an, die derzeit verfügbar sind – und welche davon sich besonders lohnen.

Qwen3 2507

Aus unserer Sicht ist Qwen3 der beste Einstieg in lokales agentisches Modeling. Diese Modellfamilie gehört in zahlreichen Benchmark-Kategorien zu den leistungsstärksten und ist gleichzeitig sehr robust für agentische Aufgaben. Sowohl die Thinking- als auch die Instruct-Varianten sind äußerst kraftvoll, und die 2507-Releases legen im Vergleich zur ursprünglichen Reihe nochmals spürbar zu.

Wir empfehlen Qwen3 2507 ausdrücklich als erste Wahl für lokales agentisches Modeling und Vibe Coding. Unser Rechner schafft nur die 8b-Variante, aber das 30b-a3b-Mixture-of-Experts-Modell ist deutlich stärker. Nach unserer subjektiven Erfahrung ließ sich Qwen3 zudem am reibungslosesten als Coding-Assistent in unseren Workflow integrieren.

Nemotron Nano v2

NVIDIAs Nemotron Nano v2 ist ebenfalls eine herausragende Option für agentische Aufgaben. Mit 9b- und 12b-Varianten zählen diese Modelle zu unseren Favoriten, wenn es um Optimierung, Überarbeitung und Vibe Coding im Code-Kontext geht. NVIDIA hat diese Modellreihe vollständig von Grund auf mit der Nemotron-H-Architektur trainiert. Als vereinheitlichtes Modell für Reasoning- und Non-Reasoning-Aufgaben beantwortet es Anfragen, indem es zuerst eine Reasoning-Trace erzeugt und anschließend mit einer finalen Antwort abschließt.

In unseren Tests waren wir sehr beeindruckt, wie gut es die Tools nutzen konnte, die in den verschiedenen IDEs verfügbar waren, die wir ausprobiert haben. Es lieferte eine Leistung, die mit dem Qwen3 2507 8b-Modell vergleichbar ist, und kann trotz der relativ begrenzten VRAM-Ressourcen des M1 Pro sinnvoll betrieben werden.

GPT-OSS

Eines der aktuell stärksten Open-Source-Modelle für lokale Entwickler ist GPT-OSS von OpenAI. Wir empfehlen es allen, die mindestens 24 GB VRAM auf einer NVIDIA- oder AMD-Consumer-GPU zur Verfügung haben. Insbesondere die GPT-OSS-20b-Variante wurde mit Blick auf GPUs dieser Klasse trainiert.

GPT-OSS ist ein leistungsfähiges agentisches Modell für Programmierung. Es ist besonders stark bei Tool-Nutzung, Few-Shot-Function-Calling, Chain-of-Thought-Reasoning und dem medizinischen HealthBench-Benchmark (und übertrifft dabei sogar proprietäre Modelle wie OpenAI o1 und GPT-4o).

Modelle lokal hosten

Es gibt viele Möglichkeiten, lokale Modelle zu betreiben – abhängig davon, was du genau brauchst. In diesem Abschnitt stellen wir unsere zwei bevorzugten Ansätze vor, um LLMs mit lokaler Hardware zu hosten. Unsere liebsten Hosting-Tools sind LM Studio und Ollama.

Mach gerne direkt mit: Wir geben Hinweise für den Start und helfen bei der Entscheidung, welche Option besser zu deinem Setup passt.

LM Studio

Als erstes Tool möchten wir LM Studio vorstellen: eine Anwendung, mit der du Modelle wie gpt-oss, Qwen, Gemma, DeepSeek und viele weitere lokal – privat und kostenlos – ausführen kannst. LM Studio bietet eine aufgeräumte, benutzerfreundliche Oberfläche und macht es leicht, Sprachmodelle innerhalb der App auszuwählen, herunterzuladen und zu starten. Dabei werden sowohl GGUF- als auch MLX-Modellformate unterstützt. Zusätzlich gibt es zahlreiche Integrationen und Möglichkeiten für Custom Builds, die den Funktionsumfang erweitern können, einschließlich RAG.

Wir empfehlen LM Studio besonders für Mac-Nutzer, da sie die Stärken der Anwendung optimal ausspielen können.

Ollama

Ein weiteres Projekt, das wir wirklich mögen, ist Ollama. Es gehörte zu den ersten Projekten, die aus dem Open-Source-Ökosystem rund um Llama.cpp hervorgegangen sind, und zählt weiterhin zu den beliebtesten LLM-Services der Open-Source-Community. Uns überzeugt die Command-Line-Ausrichtung, weil sich Modelle damit besonders einfach herunterladen, nutzen und organisieren lassen. Wie LM Studio kann Ollama ebenfalls einen Server bereitstellen, sodass du ein Modell als Endpoint hosten kannst.

Ollama passt hervorragend zu Linux-Nutzern, weil der Zugriff auf Modelle über das Terminal dadurch sehr direkt und unkompliziert wird.

Coding mit lokalen Large Language Models

Softwareentwicklung mit LLM-Unterstützung – häufig als Vibe Coding bezeichnet – wird immer verbreiteter und praktischer, je leistungsfähiger diese Modelle werden. Ohne Zugriff auf eine starke Desktop-GPU oder Cloud-Ressourcen ist das jedoch leichter gesagt als getan. Ziel dieses Tutorials ist es zu zeigen, wie sich die zuvor vorgestellten Modelle und Tools mit lokaler Hardware kombinieren lassen, um Offline-Vibe-Coding erfolgreich umzusetzen.

VS Code Continue

Unsere bevorzugte Methode für Offline-Vibe-Coding mit lokalen Modellen ist VS Code Continue: eine Integration für die weit verbreitete IDE, die es einfach macht, agentische LLMs direkt in den Coding-Workflow zu bringen. Mit VS Code Continue kannst du die Endpoints nutzen, die LM Studio oder Ollama bereitstellen, und so mit deinen lokalen Dateien arbeiten.

Um zu starten, installiere Ollama oder LM Studio sowie Visual Studio Code. Danach lädst du das gewünschte Modell in das Hosting-Tool deiner Wahl. Anschließend öffnest du den VS-Code-Extensions-Marktplatz, suchst nach Continue und installierst die Erweiterung.

Nach der Installation kannst du die Extension über die linke Sidebar über den Continue-Logo-Button öffnen. Von dort aus richtest du das Chat-Agent-Fenster so ein, dass es Modelle aus LM Studio und Ollama erkennt. Dadurch kannst du problemlos zwischen Modellen wechseln, die in den jeweiligen Anwendungen gehostet werden.

Continue bringt drei Standard-Templates mit, über die der Agent mit dir interagieren kann: Agent, Plan und Chat. Die ersten beiden verfügen über integrierte Tools, die die Arbeit mit Dateien ermöglichen – wobei Agent in der Regel stärker beim Editieren ist. Chat dient vor allem dazu, mit Kontext zu kommunizieren. Wir hatten sehr gute Ergebnisse, wenn wir die Modi gezielt eingesetzt haben: Chat, um Inhalte zu besprechen, Plan, um Änderungen zu strukturieren, und Agent, um diese Änderungen automatisch umzusetzen.

In der Praxis entsprechen die Grenzen von Continue größtenteils den Grenzen des jeweils verwendeten Modells. Mit zunehmendem Fortschritt der Modelle wird sich auch die Tool-Nutzung deutlich verbessern. Uns hat beeindruckt, wie gut alle drei Modelle unseren Code verbessern und kleinere Prozesse automatisieren konnten, während wir offline gearbeitet haben. Wir empfehlen Continue allen, die an VS Code gewöhnt sind – inklusive Forks wie Cursor –, besonders auf Mac- oder Windows-Rechnern.

Zed

Unsere zweite bevorzugte Offline-Vibe-Coding-IDE ist Zed. Zed ist ein kostenloser, Open-Source-Editor für Linux und macOS, entwickelt von Zed Industries, der speziell für Coding mit Language-Model-Unterstützung ausgelegt ist. Es ist ein sehr leistungsfähiges Werkzeug für Editing und Automatisierung.

Um mit Zed zu starten, lädst du die Anwendung von der Website herunter und installierst sie. Danach öffnest du Zed und nutzt die Filebar, um ein lokales Verzeichnis zu laden, an dem du arbeiten möchtest.

Innerhalb der IDE kannst du mit deinen in LM Studio oder Ollama gehosteten Modellen chatten, indem du auf das zweitletzte Icon unten rechts im Fenster klickst. Wähle zuerst das Modell aus, das du verwenden möchtest. Anschließend entscheidest du, welches Profil du nutzen willst: Write, Ask oder Minimal.

Ähnlich wie bei den Templates in Continue bieten diese Profile unterschiedliche Tool-Zugriffe. Write ist dafür gedacht, Änderungen an Dateien über Prompt-Anfragen umzusetzen, Ask beantwortet Fragen zu den Dateien, und Minimal ist hauptsächlich fürs Chatten gedacht. Wenn du zusätzliche Tools erstellen und später in Zed integrieren möchtest, kannst du diese Profile dafür nutzen.

Nach unserer Erfahrung ist Zed ein großartiges Tool für diese Art von Arbeit. Es hat starke integrierte Funktionen, die das Coding mit LLM-Unterstützung sehr einfach machen – inklusive Editieren und sogar dem Schreiben neuer, eigener Code-Abschnitte. Wir empfehlen Zed für Mac- und Linux-Nutzer, die unterwegs ein leistungsfähiges Setup brauchen.

Fazit

Zusammengefasst: Lokale Entwicklung verändert sich gerade deutlich – dank verfügbarer Edge-Modelle und eines wachsenden Ökosystems an Anwendungen, die die Nutzung dieser Modelle so einfach machen wie nie zuvor. In diesem Artikel haben wir unsere bevorzugten Modelle fürs Code-Editing vorgestellt, zwei starke Tools zum lokalen Hosting dieser Modelle und unsere liebsten IDE-Integrationen, die diese Services nutzen, um Offline-Vibe-Coding zu ermöglichen. Probiere die Optionen am besten selbst aus und finde heraus, welche am besten zu deiner Arbeitsweise passt.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Jetzt loslegen

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Kimi K2 Post-Training: Tool-Use, Datensynthese und Reinforcement Learning

AI/ML, Tutorial

vor 1 Monat

Vijona4 Feb. um 11:13 Uhr Kimi K2 Post-Training: Tool-Use, Datensynthese und Reinforcement Learning In einem früheren Beitrag haben wir Kimi K2 vorgestellt – inklusive MoE-Design, dem MuonClip-Optimizer und verschiedenen Optimierungen rund…

Linux-Befehle in PowerShell nutzen: pwsh & WSL erklärt

AI/ML, Tutorial

vor 1 Monat

Vijona4 Feb. um 11:05 Uhr Linux-Befehle in PowerShell nutzen: Plattformübergreifende Workflows mit pwsh und WSL PowerShell und Linux sind heute deutlich enger miteinander verzahnt als früher. Durch die Weiterentwicklung von plattformübergreifendem…

Qwen3-Coder: 405B MoE Coding-Modell + Qwen Code CLI Anleitung

AI/ML, Tutorial

vor 1 Monat

Vijona4 Feb. um 11:01 Uhr Qwen3-Coder: Agentisches MoE-Coding-Modell mit 405B Parametern In letzter Zeit gab es eine ganze Reihe neuer Qwen-Veröffentlichungen. Besonders hervor sticht Qwen3-Coder: ein agentisches Mixture-of-Experts-(MoE)-Modell mit 405B Gesamtparametern…

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!

Kubernetes Produkt-Vergleiche

Bald verfügbar!

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!