Odysseus mit GPU: lokale KI-Modelle auf einem GPU-Server
Für schnelle lokale Modelle braucht Odysseus eine GPU. So aktivierst du NVIDIA-Unterstützung im Docker-Setup und bedienst eigene Modelle auf einem GPU-Server.

Für schnelle lokale Modelle braucht Odysseus eine GPU. So aktivierst du NVIDIA-Unterstützung im Docker-Setup und bedienst eigene Modelle auf einem GPU-Server.

Odysseus kann über seinen Cookbook lokale KI-Modelle herunterladen und bedienen. Auf der CPU ist das langsam, richtig schnell wird es erst mit einer GPU. Diese Anleitung aktiviert die NVIDIA-Unterstützung im Docker-Setup von Odysseus und bringt eigene Modelle auf einem GPU-Server zum Laufen, ganz ohne dass deine Daten oder Prompts das Haus verlassen.
NVIDIA-Treiber und Container Toolkit installieren, das GPU-Overlay in der .env aktivieren, Stack neu starten, dann im Cookbook Modelle laden.
Lokale Modelle sind der schwere Teil. Wie groß ein Modell laufen kann, entscheidet vor allem der VRAM deiner GPU. Als grobe Orientierung bei 4-bit-Quantisierung:
| Modellgröße | VRAM | Passende GPU |
|---|---|---|
| 7B bis 14B | ca. 6 bis 10 GB | RTX 4000 Ada (20 GB) |
| 32B | ca. 22 GB | RTX 6000 Ada (48 GB) |
| 70B | ca. 42 GB | RTX 6000 Ada (48 GB) |
Ein ComputeBox-GPU-Server liefert genau das: dedizierte NVIDIA-Karten mit 20 oder 48 GB VRAM, voller Root-Zugang und deutsche Rechenzentren, in Minuten startklar und ohne stündliche Kostenfallen.
GPU-Server kommen ohne vorinstallierten Treiber. Installiere ihn einmalig und starte neu:
Nach dem Neustart prüfst du, ob die Karte erkannt wird:
Damit Docker die GPU an den Container durchreicht, brauchst du das NVIDIA Container Toolkit. Odysseus bringt dafür ein Hilfsskript mit. Wechsle in den odysseus-Ordner und führe aus:
Das Skript prüft die Durchreichung und installiert das Toolkit auf Ubuntu und Debian.
Jetzt schaltest du das GPU-Compose-Overlay ein. Am einfachsten über dasselbe Skript, das den Eintrag in die .env schreibt, sobald die Durchreichung funktioniert:
Alternativ trägst du es von Hand in die .env ein:
Danach startest du den Stack mit dem Overlay neu:
Erscheint deine Karte in der Liste, hat Odysseus Zugriff auf die GPU.
Öffne Odysseus und geh zum Cookbook. Dort bekommst du hardwaregerechte Modell-Empfehlungen, lädst Modelle herunter und stellst sie über Odysseus bereit. Downloads landen in ./data/huggingface, die Serve-Engines in ./data/local, beides übersteht ein Neuerstellen der Container.
Ein erfolgreiches nvidia-smi im Container bestätigt nur den GPU-Zugriff. Meldet der Cookbook Unable to find cudart oder rechnet auf der CPU, fehlt der CUDA-Build der Serve-Engine. Installiere sie über Cookbook → Dependencies neu, um eine CUDA-fähige Version zu bekommen.
Läuft bereits ein Ollama auf dem Host (gestartet mit OLLAMA_HOST=0.0.0.0:11434 ollama serve), trägst du in den Odysseus-Einstellungen einfach den Endpunkt http://host.docker.internal:11434/v1 ein.
nvidia-smi im Container schlägt fehlUnable to find cudart / rechnet auf CPUFalsche GPU wird erkanntEin 70B-Modell läuft bei 4-bit-Quantisierung komfortabel in 48 GB VRAM, also auf der RTX 6000 Ada. Für 7B bis 14B reicht die RTX 4000 Ada mit 20 GB.
Odysseus unterstützt auch ROCm über ein eigenes Overlay. Der Weg ist ähnlich, nutzt aber docker/gpu.amd.yml und die AMD-Diagnose.
Nein. Du kannst Odysseus auch nur mit API-Modellen betreiben. Die GPU lohnt sich, sobald du Modelle lokal und privat bedienen willst.
RTX 6000 Ada mit 48 GB VRAM oder RTX 4000 Ada ab 99 €/Monat, dediziert und aus deutschen Rechenzentren.
GPU-Server konfigurieren
sudo ubuntu-drivers install
sudo rebootnvidia-smi./scripts/check-docker-gpu.sh --install-nvidia-toolkit./scripts/check-docker-gpu.sh --enable-nvidia-overlayCOMPOSE_FILE=docker-compose.yml:docker/gpu.nvidia.ymldocker compose up -ddocker compose exec odysseus nvidia-smi -L