Content

1 Wichtigste Erkenntnisse
2 Das Problem: Warum Modelldownloads bei jedem Start schaden
3 Die Lösung: Einmal herunterladen und überall Inferenz ausführen
4 Architekturübersicht
5 Voraussetzungen
6 Schritt 1: Infrastruktur einrichten
7 Schritt 2: Verwaltete NFS-Freigabe erstellen
8 Schritt 3: Kubernetes mit NFS verbinden
9 Schritt 4: Modell einmalig herunterladen
10 Schritt 5: vLLM bereitstellen
11 Schritt 6: Inferenz-Endpunkt testen
12 Skalierung: Was passiert, wenn Sie weitere GPUs hinzufügen?
13 Cleanup
14 Häufig gestellte Fragen
15 Fazit

Vijona

Gestern um 15:36 Uhr

vLLM auf Kubernetes mit gemeinsamem NFS-Modellspeicher bereitstellen

Ihre vLLM-Pods laden möglicherweise bei jedem Start dieselben großen Modelldateien erneut herunter.

Wenn Sie LLM-Inferenz auf Kubernetes betreiben, haben Sie vielleicht den naheliegenden Weg gewählt: vLLM wird so konfiguriert, dass das Modell beim Start des Pods von Hugging Face geladen wird. Das funktioniert, führt später aber zu Problemen:

Ein Pod fällt um 2 Uhr nachts aus. Der Ersatz-Pod kann keine einzige Anfrage bedienen, bevor er nicht mehrere Minuten lang viele Gigabyte an Modellgewichten von Hugging Face heruntergeladen hat.
Sie müssen bei steigendem Traffic skalieren. Jeder neue Pod lädt das Modell separat herunter, nutzt dieselbe Netzwerkbandbreite und verzögert dadurch die Reaktion auf die höhere Nachfrage.
Hugging Face setzt Rate Limits durch oder ist nicht erreichbar. Ihre Pods können nicht erfolgreich starten.

Der bessere Ansatz: Laden Sie das Modell einmalig in einen gemeinsam genutzten Speicher und lassen Sie jeden Pod das Modell von dort laden. Dadurch vermeiden Sie wiederholte Downloads, entfernen externe Runtime-Abhängigkeiten und ermöglichen jedem neuen Pod schnellen Zugriff auf die Modelldateien.

In dieser Anleitung stellen Sie vLLM auf Kubernetes bereit und verwenden verwalteten NFS-Speicher für Modelldateien.

Das Beispiel nutzt einen einzelnen H100-GPU-Node, damit die Einrichtung übersichtlich bleibt. Das Muster lässt sich jedoch auf beliebig viele Nodes erweitern. Genau darin liegt der Vorteil: Sobald das Modell auf NFS gespeichert ist, erhält zusätzliche GPU-Kapazität direkten Modellzugriff, statt erneut einen langen Download auszulösen.

Wichtigste Erkenntnisse

Wiederholte Downloads vermeiden: Laden Sie LLM-Modelle einmalig in gemeinsam genutzten NFS-Speicher, anstatt sie bei jedem Pod-Start erneut abzurufen. So lassen sich Startverzögerungen von Minuten auf Sekunden reduzieren.

Schneller skalieren: Neue vLLM-Replikate können schneller Traffic verarbeiten, weil sie Modelle direkt von NFS laden, statt auf Multi-Gigabyte-Downloads zu warten.

Externe Abhängigkeiten reduzieren: Speichern Sie Modelle innerhalb Ihrer eigenen Infrastruktur, damit Pod-Neustarts und Skalierungsereignisse nicht von der Verfügbarkeit von Hugging Face abhängen.

Gleichzeitigen Zugriff ermöglichen: NFS mit ReadWriteMany-Zugriff erlaubt mehreren Pods, dieselben Modelldateien gleichzeitig zu lesen. Das ist ideal für horizontale Skalierung.

Ein produktionsnahes Muster aufbauen: Dieser Speicheransatz funktioniert für viele LLM-Deployments und skaliert von einer Single-Node-Konfiguration bis hin zu größeren Multi-GPU-Clustern.

Das Problem: Warum Modelldownloads bei jedem Start schaden

Betrachten wir genauer, welche Kosten entstehen, wenn Modelle beim Pod-Start heruntergeladen werden.

Modelldateien sind groß. Mistral-7B-Instruct-v0.3, das in dieser Anleitung verwendete Modell, ist etwa 15 GB groß. Größere Modelle wie Llama 70B können mehr als 140 GB umfassen. Immer wenn ein Pod startet und das Modell von Hugging Face herunterlädt, müssen diese Daten erneut über das Internet übertragen werden.

Jeder Pod-Neustart führt zu einem weiteren Download. Pods können abstürzen. Nodes können gewartet oder ersetzt werden. Deployments werden regelmäßig durchgeführt. Beim Download-beim-Start-Ansatz lösen all diese Ereignisse einen vollständigen erneuten Modelldownload aus. Wenn ein Inferenz-Pod an einem Tag dreimal neu startet, werden dieselben Modelldateien dreimal heruntergeladen.

Skalierung wird zum Bandbreitenengpass. Wenn ein Horizontal Pod Autoscaler während einer Traffic-Spitze zusätzliche Replikate erstellt, lädt jeder neue Pod gleichzeitig das Modell herunter. Drei neue Pods bedeuten drei parallele Multi-Gigabyte-Downloads, die alle um Bandbreite konkurrieren. Statt sofort mehr Serving-Kapazität bereitzustellen, wartet Ihre Plattform auf abgeschlossene Downloads.

Hugging Face wird zu einer Runtime-Abhängigkeit. Das ist das weniger offensichtliche Risiko. Im Normalbetrieb scheint die Verfügbarkeit von Hugging Face vielleicht kein Problem zu sein. Stellen Sie sich jedoch einen Ausfall um 2 Uhr nachts vor: Ein GPU-Node ist nicht verfügbar, Kubernetes plant einen Ersatz-Pod ein, und Hugging Face limitiert Ihre IP-Adresse oder hat selbst Störungen. Ihre Wiederherstellung nach einem Infrastrukturproblem hängt dann von einem externen Dienst ab, den Sie nicht kontrollieren.

Das Prinzip ist einfach: Kontrollieren Sie Ihre Abhängigkeiten. Externe Dienste wie Hugging Face sollten für die erstmalige Modellbeschaffung genutzt werden, nicht als notwendige Abhängigkeit bei jedem Pod-Start. Ob ein Pod wegen Skalierung, Deployment oder Fehlerbehebung startet: Er sollte aus Infrastruktur laden, die Sie selbst kontrollieren.

Die Lösung: Einmal herunterladen und überall Inferenz ausführen

Das Muster ist einfach:

Einmal herunterladen: Ein Kubernetes Job lädt das Modell von Hugging Face auf eine NFS-Freigabe herunter.
Auf NFS speichern: Die Modelldateien bleiben auf verwaltetem NFS-Speicher verfügbar.
Von NFS laden: Jeder vLLM-Pod mountet die NFS-Freigabe und lädt das Modell direkt von diesem Pfad.

Damit werden die oben beschriebenen Probleme gelöst.

ReadWriteMany-Zugriff: NFS erlaubt mehreren Pods, gleichzeitig aus demselben Speicherpfad zu lesen. Ob Sie ein Replikat oder zehn ausführen, alle können dieselben Modelldateien verwenden.

Persistenz: Modelldateien bleiben über Pod-Neustarts, Node-Ersetzungen und Cluster-Upgrades hinweg verfügbar. Sie laden das Modell einmal herunter und behalten es, bis Sie es bewusst entfernen.

Zugriff innerhalb derselben Region ohne externe Runtime-Abhängigkeit: Die NFS-Freigabe befindet sich in derselben Region wie der Kubernetes-Cluster. Das Laden des Modells erfolgt über das private Netzwerk, ist schnell, zuverlässig und unabhängig von Drittanbietern.

Verwaltete Infrastruktur: Der NFS-Dienst wird vom Infrastrukturprovider betrieben, sodass Sie keine eigenen NFS-Server warten müssen.

Der Skalierungsvorteil ist besonders wichtig. Wenn Sie später einen neuen GPU-Node hinzufügen und ein weiteres vLLM-Replikat bereitstellen, kann der Pod sofort auf das Modell zugreifen. Er startet, mountet NFS, lädt das Modell in den GPU-Speicher und beginnt mit der Verarbeitung von Anfragen. Die Startzeit beschränkt sich auf das Laden des Modells, nicht auf Modelldownload plus Modellladen.

Beim Download-pro-Pod-Ansatz bedeutet ein neues Replikat, dass Sie mehrere Minuten auf einen weiteren Download warten müssen, bevor die zusätzliche Kapazität nutzbar ist.

Architekturübersicht

Der Datenfluss besteht aus zwei getrennten Phasen.

Einmalige Einrichtung:

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!

Kubernetes Produkt-Vergleiche

Bald verfügbar!

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!