Content

1 Voraussetzungen
2 GPT4All installieren
3 GPT4All für die Nutzung von LLMs einrichten
4 GPT4All zum Chatten mit lokalen LLMs verwenden
5 RAG: Lokale Dokumente mit GPT4All nutzen
6 GGUF-Modelle mit GPT4All herunterladen und nutzen
7 Den GPT4All API-Server aktivieren
8 Nginx als Reverse Proxy für die GPT4All-API unter Linux konfigurieren
9 API-Anfragen über den Reverse Proxy senden
10 Fehlerbehebung
11 Fazit

Vijona

Heute um 14:12 Uhr

GPT4All installieren und lokale LLMs nutzen – Anleitung

GPT4All ist eine frei verfügbare, quelloffene Desktop-Anwendung, mit der du große Sprachmodelle (LLMs) direkt auf deinem eigenen Rechner ausführen kannst. Das Programm läuft auf den wichtigsten Desktop-Systemen – macOS, Windows und Linux – und ermöglicht die Nutzung von Modellen komplett ohne aktive Internetverbindung. GPT4All unterstützt LLMs im GGUF-Format von Quellen wie Hugging Face und kann zusätzlich über APIs mit gehosteten Anbietern wie Groq, OpenAI und Mistral verbunden werden, sodass du Modelle privat und sicher einsetzen kannst.

Diese Anleitung zeigt dir, wie du GPT4All installierst, Modelle herunterlädst und startest und anschließend lokal mit ihnen chattest. Du richtest die neueste GPT4All-Version ein, konfigurierst bei Bedarf API-basierten Zugriff und interagierst mit LLMs auf Basis lokaler Dateien wie Tabellen, Dokumenten, PDFs, Notizen oder Konfigurationsdateien.

Voraussetzungen

Bevor du startest, stelle sicher, dass Folgendes vorhanden ist:

Eine Cloud-GPU-Instanz, ein CPU-basiertes Windows-System, ein macOS-Rechner oder eine Ubuntu-basierte Linux-Desktop-Workstation (mit GUI), auf der du als Nicht-Root-User mit sudo-Rechten arbeitest.
Eine Domain mit einem A-Record, der auf die öffentliche IP deiner Workstation zeigt. In dieser Anleitung wird gpt4all.example.com als Beispiel-Domain verwendet.

GPT4All installieren

GPT4All lässt sich unter Windows, macOS oder Linux einrichten. Nutze die Installationsschritte, die zu deinem Betriebssystem passen. Die folgenden Anweisungen zeigen die Installation unter Ubuntu 24.04 mit dem neuesten Installer-Binary.

GPT4All auf Ubuntu (und Debian-basierten Systemen) installieren

GPT4All ist für Ubuntu und andere Debian-basierte Desktop-Umgebungen verfügbar. Du kannst die Anwendung über den aktuellen Binär-Installer oder per Flatpak installieren. Die Schritte unten beschreiben die Installation der Binärversion auf einer Ubuntu-24.04-Workstation.

Melde dich per VNC, Nomachine oder einem anderen grafischen Remote-Desktop-Tool an deiner Ubuntu-Desktop-Umgebung an.

Öffne ein Terminal, zum Beispiel mit CTRL + ALT + T.

Installer herunterladen

Copy Code

wget https://gpt4all.io/installers/gpt4all-installer-linux.run

Ausführungsrechte setzen

Copy Code

chmod +x gpt4all-installer-linux.run

Installer starten

Copy Code

./gpt4all-installer-linux.run

Hinweis: Du brauchst eine vollständige grafische Desktop-Umgebung, um die Anwendung auszuführen.

Klicke im Installationsassistenten auf Next >, um zu beginnen.

Bestätige den Installationspfad und gehe mit Next > weiter.

Wähle alle verfügbaren Komponenten aus und fahre mit Next > fort.

Akzeptiere die Lizenz, indem du I accept the license auswählst.

Klicke auf Install, um die Installation abzuschließen.

Wenn der Vorgang beendet ist, klicke auf Finish.

Installationsdateien prüfen

Copy Code


ls ~/gpt4all

Erwartete Ausgabe:

bin InstallationLog.txt Licenses network.xml share
components.xml installer.dat maintenancetool plugins
gpt4all-32.png installerResources maintenancetool.dat qml
gpt4all-48.png lib maintenancetool.ini resources

Desktop-Verknüpfung prüfen

Copy Code


ls ~/Desktop

Erwartete Ausgabe:

GPT4All.desktop

Eintrag im Anwendungsmenü erstellen

Copy Code


mkdir -p ~/.local/share/applications

Copy Code


mv ~/Desktop/GPT4All.desktop ~/.local/share/applications/

Öffne anschließend dein Anwendungsmenü und suche nach GPT4All. Das Icon sollte jetzt sichtbar sein. Klicke darauf, um die GPT4All-Chatoberfläche zu starten.

GPT4All unter Windows installieren

GPT4All unterstützt Windows-Systeme sowohl auf x86- als auch auf ARM-Basis. Du kannst das Programm als CPU- oder GPU-optimierte Version installieren. Gehe dafür wie folgt vor:

Lade die aktuelle .exe-Installationsdatei von der offiziellen Website herunter.
Starte die heruntergeladene Datei, um den Installer zu öffnen.
Klicke auf Next, um fortzufahren.
Prüfe den Installationspfad und bestätige ihn mit Next.
Wähle die gewünschten Komponenten aus und klicke erneut auf Next.
Akzeptiere das Lizenzabkommen.
Erlaube das Anlegen einer Startmenü-Verknüpfung.
Klicke auf Install und warte, bis der Vorgang abgeschlossen ist.
Beende den Assistenten mit Finish.

Nach der Installation öffnest du das Windows-Startmenü, suchst nach GPT4All und startest die Anwendung.

GPT4All auf macOS (M-Serie) installieren

So richtest du GPT4All auf einem Mac mit M-Series-Prozessor ein:

Lade das neueste .dmg-Paket von der offiziellen Seite herunter.
Öffne das heruntergeladene Installationspaket.
Doppelklicke auf gpt4all-installer-darwin, um den Setup-Assistenten zu starten.
Klicke auf Next >, um den Installationspfad zu prüfen.
Übernimm den Standardpfad und fahre fort.
Als Komponente wird nur gpt4all angezeigt. Klicke auf Next >.
Akzeptiere die Lizenzbedingungen und klicke auf Install.
Beende den Vorgang mit Finish.
Öffne Launchpad, suche GPT4All und starte die Anwendung.

GPT4All für die Nutzung von LLMs einrichten

GPT4All wird ohne vorinstallierte Modelle ausgeliefert. Du kannst Modelle entweder aus der integrierten Modellbibliothek herunterladen oder von externen Quellen wie Hugging Face einbinden. Unterstützt werden unter anderem instruct-optimierte, destillierte, reasoning-fähige sowie zensierte oder unzensierte Varianten. Die folgenden Schritte zeigen, wie du Modelle hinzufügst, verwaltest und anschließend mit ihnen chattest.

Starte GPT4All über dein Anwendungsmenü.
Öffne im Hauptmenü den Bereich Models.
Klicke auf Add Model, um verfügbare Modelle zu durchsuchen.

Modellquellen

GPT4All Repository: Enthält kuratierte, getestete Modelle, die mit deiner GPT4All-Version kompatibel sind.
Remote Providers: Verlinkt auf Anbieter wie Groq, OpenAI und Mistral. Für deren Inferenz ist eine Internetverbindung erforderlich.
Hugging Face: Ermöglicht die Suche und den Download von GGUF-Modellen per Stichwort.

Modelldetails prüfen

Wenn du ein Modell auswählst, zum Beispiel Llama3.2 1B Instruct, solltest du die folgenden Anforderungen und Angaben beachten:

File Size: Die Modellgröße muss als freier Speicherplatz vorhanden sein.
RAM Required: Der notwendige Arbeitsspeicher, um das Modell in GPT4All zu betreiben.
Parameters: Die Anzahl der Parameter, auf denen das Modell trainiert wurde.
Quant: Der Quantisierungstyp, der die Gewichte komprimiert und Speicherbedarf sowie Geschwindigkeit beeinflusst.
Type: Die Architektur bzw. Modellfamilie.

Klicke auf Download, um das Modell herunterzuladen.

Gehe anschließend zurück in den Bereich Models und überprüfe, ob das Modell verfügbar ist. Danach kannst du im Bereich Chats ein Modell auswählen und eine neue Unterhaltung starten.

GPT4All zum Chatten mit lokalen LLMs verwenden

Modelle, die du heruntergeladen hast, erscheinen im Reiter Chats innerhalb von GPT4All. Alle Unterhaltungen laufen vollständig lokal auf deinem Rechner und bleiben privat. Folge den Schritten unten, um mit einem lokal verfügbaren Modell zu chatten – ganz ohne Internetverbindung.

Öffne das Hauptmenü und klicke auf Chats.
Klicke auf Select a Model und wähle das gewünschte Modell aus.

Gib im Feld Send a message eine Eingabe ein und drücke Enter, um die Unterhaltung zu starten.

Behalte die Anzahl der Tokens und die Antwortgeschwindigkeit des Modells im Blick.

Stelle sicher, dass die Antwort des Modells zum eingegebenen Prompt passt.

Gib einen weiteren Prompt ein und bestätige mit Enter. Das Modell berücksichtigt vorherige Eingaben und verbessert seine Antworten entsprechend.

Klicke auf Delete, um einen Chat aus der Historie zu löschen.

Mit Edit kannst du den Titel eines Chats bearbeiten, oder du startest mit New Chat eine neue Unterhaltung.

RAG: Lokale Dokumente mit GPT4All nutzen

GPT4All bietet integrierte Retrieval-Augmented Generation (RAG) über das Menü LocalDocs. Du kannst mehrere Dokumente hochladen und das Modell darauf zugreifen lassen, um Antworten durch deine eigenen Dateien zu verbessern. Im Folgenden erfährst du, wie du eine neue Dokumentensammlung anlegst und sie für Chats verwendest.

Klicke im Menü auf Settings und wähle LocalDocs.

Prüfe die Liste der unterstützten Dateitypen.

Wähle unter Embeddings Device die Option CUDA, falls verfügbar, um die Einbettungen über deine GPU zu berechnen.

Gehe zurück zum Hauptmenü und klicke auf LocalDocs.

Klicke auf Add Doc Collection, um eine neue Sammlung lokaler Dokumente zu erstellen.

Gib einen Namen für deine Sammlung ein und wähle über Browse den Ordner mit deinen Dokumenten aus.

Klicke auf Create Collection, damit GPT4All die Dokumente im angegebenen Ordner scannt.

Überwache den Fortschritt und prüfe für jede Datei die Anzahl der generierten Embeddings. Standardmäßig verwendet GPT4All das Modell nomic-embed-text-v1.5.

Vergewissere dich, dass deine neue Sammlung alle hochgeladenen Dokumente enthält.

Öffne anschließend den Bereich Chats.

Starte eine neue Unterhaltung, klicke oben rechts auf LocalDocs und wähle deine Dokumentensammlung aus, um RAG-basierte Antworten zu erzeugen.

GGUF-Modelle mit GPT4All herunterladen und nutzen

GGUF (GPT-Generated Unified Format) ist ein leistungsoptimiertes Format, das das Speichern und Laden großer Sprachmodelle besonders effizient macht. Es wurde für schnelle Ladezeiten, geringeren Speicherverbrauch und reaktionsstarke Inferenz entwickelt. Du kannst GGUF-Modelle von Plattformen wie Hugging Face herunterladen und manuell zu GPT4All hinzufügen. Die folgenden Schritte beschreiben den Prozess.

Öffne einen Webbrowser wie Firefox.

Rufe Hugging Face auf und suche nach einem Modell, das du herunterladen möchtest.

Gib zum Beispiel Mistral GGUF in die Suche ein, um passende Modelle zu finden.

Wähle ein Modell wie mistralai/Devstral-Small-2507_gguf aus der Ergebnisliste.

Klicke auf Files and Versions, um die verfügbaren Versionen zu sehen.

Wähle eine quantisierte Version wie Devstral-Small-2507-Q4_K_M.gguf aus.

Prüfe die Dateigröße des Modells.

Öffne ein Terminal.

Überprüfe den Speicherplatz auf deinem System:

Copy Code

df -h

Klicke im Browser auf das Download-Symbol der gewünschten Modellversion.

Wenn der Download abgeschlossen ist, öffne das Terminal und wechsle in deinen Downloads-Ordner:

Copy Code


cd ~/Downloads

Verschiebe die heruntergeladene GGUF-Datei in das Verzeichnis ~/.local/share/nomic.ai/GPT4All/:

Copy Code

mv Devstral-Small-2507-Q4_K_M.gguf ~/.local/share/nomic.ai/GPT4All/

Liste die enthaltenen Dateien auf:

Copy Code


ls ~/.local/share/nomic.ai/GPT4All/

Erwartete Ausgabe:

Devstral-Small-2507-Q4_K_M.gguf Llama-3.2-1B-Instruct-Q4_0.gguf localdocs_v3.db test_write.txt

Schließe GPT4All, falls es geöffnet ist.

Starte die Anwendung erneut, damit die neuen Modelle geladen werden.

Öffne den Bereich Models und prüfe, ob das neue Modell angezeigt wird.

Wechsle zu Chats, klicke auf New Chat und wähle das neu hinzugefügte Modell aus.

Gib einen Prompt wie Schreibe eine kurze Geschichte über einen Roboter, der Programmieren lernt, mit Fokus auf Arrays ein und drücke Enter, um eine Antwort zu erzeugen.

Den GPT4All API-Server aktivieren

GPT4All bringt einen integrierten API-Server mit, über den du Modelle per REST-Endpunkten programmatisch ansprechen kannst. Damit lassen sich verfügbare Modelle auflisten, Textgenerierungen ausführen und GPT4All in eigene Anwendungen einbinden. Die Schritte unten zeigen dir, wie du den lokalen API-Server einschaltest und erste Requests absetzt.

Öffne im Hauptmenü Settings.
Wechsle in den Bereich Advanced.
Aktiviere Enable Local API Server.

Notiere dir den Standard-Port, über den der API-Server erreichbar ist.

Öffne ein Terminalfenster.

Sende eine GET-Anfrage an den Endpunkt /v1/models, um alle verfügbaren Modelle zu listen:

Copy Code

curl http://localhost:4891/v1/models

Die API liefert eine JSON-Ausgabe mit den aktuell verfügbaren Modellen zurück.

Um Details zu einem bestimmten Modell abzurufen, sende eine GET-Anfrage an /v1/models/<model-name>. Ersetze Devstral-Small-2507-Q4_K_M.gguf durch ein Modell, das auf deinem Server vorhanden ist:

Copy Code

curl http://localhost:4891/v1/models/Devstral-Small-2507-Q4_K_M.gguf

Für Textvervollständigungen nutzt du den Endpunkt /v1/completions per POST-Request:

Copy Code

curl -X POST http://localhost:4891/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Devstral-Small-2507-Q4_K_M.gguf", "prompt": "What is the sum of 8, 5, and negative 200?", "max_tokens": 500 }'

Die Antwort kommt als JSON zurück und enthält das generierte Ergebnis sowie weitere Metadaten.

Nginx als Reverse Proxy für die GPT4All-API unter Linux konfigurieren

GPT4All nimmt API-Anfragen standardmäßig nur über die lokale Loopback-Adresse 127.0.0.1 an. Dadurch sind Verbindungen auf das eigene System beschränkt. Wenn du Nginx als Reverse Proxy einrichtest, kannst du die API sicher über dein Netzwerk freigeben, indem Nginx alle Requests an den Localhost-Port weiterleitet.

Paketquellen aktualisieren

Copy Code

sudo apt update

Nginx installieren

Copy Code

sudo apt install nginx -y

Virtual-Host-Datei anlegen

Erstelle eine neue Konfiguration namens gpt4all.conf in /etc/nginx/sites-available:

Copy Code

sudo nano /etc/nginx/sites-available/gpt4all.conf

Füge anschließend folgende Einstellungen ein. Ersetze gpt4all.example.com durch deine eigene Domain:

Copy Code


server {
    listen 80;
    server_name gpt4all.example.com;

    location / {
        proxy_pass http://127.0.0.1:4891;
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection 'upgrade';
        proxy_set_header Host $host;
        proxy_cache_bypass $http_upgrade;
    }
}

Speichere die Datei und schließe den Editor. Damit werden alle Verbindungen an gpt4all.example.com auf den GPT4All-API-Port 4891 weitergeleitet.

Konfiguration aktivieren

Aktiviere den neuen Host durch einen Symlink nach /etc/nginx/sites-enabled:

Copy Code

sudo ln -s /etc/nginx/sites-available/gpt4all.conf /etc/nginx/sites-enabled/gpt4all.conf

Entferne den Standard-VHost:

Copy Code

sudo rm /etc/nginx/sites-enabled/default

Nginx-Konfiguration testen

Copy Code

sudo nginx -t

Erwartete Ausgabe:

nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
nginx: configuration file /etc/nginx/nginx.conf test is successful

Nginx neu starten

Copy Code

sudo systemctl restart nginx

Firewall anpassen

Erlaube Nginx-Verbindungen über die Standard-Firewall:

Copy Code

sudo ufw allow "Nginx Full"

Lade UFW neu, um die Regel zu übernehmen:

Copy Code

sudo ufw reload

HTTPS mit Certbot aktivieren

Installiere Certbot samt Nginx-Plugin, um Let’s-Encrypt-Zertifikate zu erzeugen:

Copy Code

sudo apt install -y certbot python3-certbot-nginx

Erstelle ein SSL-Zertifikat für deine Domain. Ersetze Domain und E-Mail-Adresse entsprechend:

Copy Code

sudo certbot --nginx -d gpt4all.example.com -m admin@example.com --agree-tos

Starte Nginx danach erneut, damit das Zertifikat aktiv wird:

Copy Code

sudo systemctl restart nginx

API-Anfragen über den Reverse Proxy senden

Nachdem der Reverse Proxy läuft, kannst du die GPT4All-API remote über deine Domain ansprechen. Nutze die folgenden Beispiele, um per HTTPS Modelle abzufragen oder zu starten.

Alle Modelle auflisten

Copy Code

curl https://gpt4all.example.com/v1/models

Details zu einem Modell abrufen

Copy Code

curl https://gpt4all.example.com/v1/models/Qwen2-1.5B-Instruct

Fehlerbehebung

Nach der Installation können je nach Systemressourcen oder Konfiguration verschiedene Probleme auftreten. Im Folgenden findest du typische Fehlerbilder und passende Maßnahmen.

Windows: GPT4All startet nicht

Unter Windows kann die Firewall Verbindungen zur Anwendung blockieren. Dadurch lässt sich GPT4All unter Umständen nicht öffnen. Öffne dann die Firewall wie folgt für die App:

Öffne das Windows-Startmenü und gehe zu Settings.
Navigiere zu Privacy & Security → Windows Security → Firewall and Network Protection.
Klicke auf Allow an app through firewall.
Wähle Change Settings.
Klicke auf Allow another app, wähle über Browse die Chat-Binary unter C:\Users\<your-user>\gpt4all\bin aus.
Klicke auf Add, damit GPT4All zugelassen wird.
Aktiviere private und öffentliche Netzwerke und speichere mit OK.

Anschließend kannst du GPT4All öffnen und lokale Modelle starten.

Linux: GPT4All erscheint nicht im Menü

GPT4All legt standardmäßig eine Datei GPT4All.desktop an. Verschiebe sie vom Desktop in ~/.local/share/applications, damit der Launcher in deiner Programmliste auftaucht.

Linux minimal installiert: fehlende GUI-Bibliotheken

Wenn du den Installer auf einem Minimal-System ausführst, kann es zu Fehlermeldungen wie error while loading shared libraries: libxkbcommon.so.0 kommen. Das bedeutet, dass wichtige grafische Bibliotheken fehlen.

Installiere deshalb eine vollständige Desktop-Umgebung, zum Beispiel:

Copy Code

sudo apt install ubuntu-desktop -y

Starte den Server danach neu und führe den GPT4All-Installer erneut aus.

Modell hängt beim Laden oder GPT4All stürzt ab

Bleibt ein Modell im Ladebildschirm hängen oder beendet GPT4All, liegt das meist an zu wenig RAM. Prüfe im Reiter Models den Wert RAM Required und nutze nur Modelle, die dein System mit genügend Arbeitsspeicher ausführen kann.

Fazit

In dieser Anleitung hast du GPT4All installiert, lokale LLMs eingerichtet, GGUF-Modelle eingebunden, RAG mit LocalDocs genutzt, den API-Server aktiviert und die API über einen Nginx-Reverse-Proxy inklusive HTTPS sicher von außen erreichbar gemacht. GPT4All unterstützt zahlreiche Open-Source-Modelle sowie API-basierte Varianten von Anbietern wie OpenAI. Alle Chats und Inferenzvorgänge bleiben lokal und privat. Weitere Details und fortgeschrittene Einstellungen findest du in der GPT4All-Dokumentation.

Quelle: vultr.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Jetzt loslegen

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Bash-Skripte unter Linux systemweit ausführen: Anleitung für PATH & Rechte

Linux Basics, Tutorial

vor 7 Stunden

Wie Bash-Skripte funktionieren und warum sie nützlich sind Mit einem Bash-Skript kannst du eine Reihe von Befehlen in einem einzigen Durchlauf ausführen. Das ist besonders praktisch, wenn du dieselbe Abfolge…

OpenVPN auf Ubuntu 24.04 einrichten: Sicheren VPN-Server konfigurieren

Linux Basics, Tutorial, Ubuntu

vor 8 Stunden

OpenVPN unter Ubuntu 24.04 installieren und einrichten OpenVPN ist eine leistungsstarke Open-Source-VPN-Lösung, die sichere Punkt-zu-Punkt- sowie Standort-zu-Standort-Verbindungen ermöglicht. Die Software nutzt verschlüsselte Tunnel auf Basis von TLS (Transport Layer Security),…

Git Merge Anleitung: Fast-Forward, Three-Way & Konfliktlösung

Linux Basics, Tutorial

vor 8 Stunden

Git-Merging Verständlich Erklärt Das Zusammenführen von Änderungen in Git beschreibt den Vorgang, bei dem Aktualisierungen eines Branches in einen anderen integriert werden. Dieser Schritt erfolgt in der Regel, sobald die…

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!

Kubernetes Produkt-Vergleiche

Bald verfügbar!

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!