KI & GPU

Odysseus mit GPU: lokale KI-Modelle auf einem GPU-Server

Für schnelle lokale Modelle braucht Odysseus eine GPU. So aktivierst du NVIDIA-Unterstützung im Docker-Setup und bedienst eigene Modelle auf einem GPU-Server.

von Moritz Möller3. Juli 2026

Odysseus mit GPU: lokale KI-Modelle auf einem GPU-Server

Bereit zum Deployen?

Server in unter 60 Sekunden hochfahren.

Preise ansehen

Weiterlesen

Odysseus: Tipps und Tricks für dein self-hosted AI-Workspace

Hol mehr aus Odysseus heraus: Agenten und MCP, Deep Research und Websuche, E-Mail und Kalender, optionale Features und eine saubere Absicherung.

Warum ein GPU-Server?#

Lokale Modelle sind der schwere Teil. Wie groß ein Modell laufen kann, entscheidet vor allem der VRAM deiner GPU. Als grobe Orientierung bei 4-bit-Quantisierung:

Modellgröße	VRAM	Passende GPU
7B bis 14B	ca. 6 bis 10 GB	RTX 4000 Ada (20 GB)
32B	ca. 22 GB	RTX 6000 Ada (48 GB)
70B	ca. 42 GB	RTX 6000 Ada (48 GB)

Ein ComputeBox-GPU-Server liefert genau das: dedizierte NVIDIA-Karten mit 20 oder 48 GB VRAM, voller Root-Zugang und deutsche Rechenzentren, in Minuten startklar und ohne stündliche Kostenfallen.

Lokale Modelle mit voller GPU-Power: RTX 4000 Ada (20 GB) ab 99 €/Monat, dediziert.

GPU-Server ansehen

Schritt 5: Modelle laden und bedienen#

Öffne Odysseus und geh zum Cookbook. Dort bekommst du hardwaregerechte Modell-Empfehlungen, lädst Modelle herunter und stellst sie über Odysseus bereit. Downloads landen in ./data/huggingface, die Serve-Engines in ./data/local, beides übersteht ein Neuerstellen der Container.

GPU-Durchreichung ist nicht gleich CUDA-Build

Ein erfolgreiches nvidia-smi im Container bestätigt nur den GPU-Zugriff. Meldet der Cookbook Unable to find cudart oder rechnet auf der CPU, fehlt der CUDA-Build der Serve-Engine. Installiere sie über Cookbook → Dependencies neu, um eine CUDA-fähige Version zu bekommen.

Alternative: Ollama anbinden

Läuft bereits ein Ollama auf dem Host (gestartet mit OLLAMA_HOST=0.0.0.0:11434 ollama serve), trägst du in den Odysseus-Einstellungen einfach den Endpunkt http://host.docker.internal:11434/v1 ein.

Probleme?#

Fehlerbehebung

nvidia-smi im Container schlägt fehl

Das Container Toolkit fehlt oder das Overlay ist nicht aktiv. Führe Schritt 2 und 3 aus und starte den Stack neu.

Unable to find cudart / rechnet auf CPU

Reines Passthrough-Problem ist das nicht. Installiere die Serve-Engine über Cookbook → Dependencies neu, um einen CUDA-Build zu erhalten.

Falsche GPU wird erkannt

Cookbook sieht nur GPUs, die Docker durchreicht. Prüfe die Durchreichung mit ./scripts/check-docker-gpu.sh ohne Optionen.

FAQ#

Häufige Fragen

Welche GPU brauche ich für 70B-Modelle?

Ein 70B-Modell läuft bei 4-bit-Quantisierung komfortabel in 48 GB VRAM, also auf der RTX 6000 Ada. Für 7B bis 14B reicht die RTX 4000 Ada mit 20 GB.

Läuft das auch mit AMD-GPUs?

Odysseus unterstützt auch ROCm über ein eigenes Overlay. Der Weg ist ähnlich, nutzt aber docker/gpu.amd.yml und die AMD-Diagnose.

Muss ich lokale Modelle nutzen?

Nein. Du kannst Odysseus auch nur mit API-Modellen betreiben. Die GPU lohnt sich, sobald du Modelle lokal und privat bedienen willst.

GPU-Server für lokale KI

RTX 6000 Ada mit 48 GB VRAM oder RTX 4000 Ada ab 99 €/Monat, dediziert und aus deutschen Rechenzentren.

GPU-Server konfigurieren

Odysseus mit GPU: lokale KI-Modelle auf einem GPU-Server

Bereit zum Deployen?

Weiterlesen

Odysseus: Tipps und Tricks für dein self-hosted AI-Workspace

Warum ein GPU-Server?#

Voraussetzungen#

Schritt 1: NVIDIA-Treiber installieren#

Schritt 2: NVIDIA Container Toolkit installieren#

Schritt 3: GPU-Overlay aktivieren#

Schritt 4: GPU im Container prüfen#