Ollama Installation unter Ubuntu 24.04

Ollama erfreut sich als lokale KI-Lösung wachsender Beliebtheit, denn es bringt fortschrittliche KI-Modelle wie Llama, Mistral oder Phi direkt auf deinen Rechner - ohne Cloud-Zwang und mit maximaler Kontrolle. Wer eine leistungsstarke Grafikkarte wie die NVIDIA GeForce RTX 4050 besitzt, möchte natürlich die GPU-Power für KI-Tasks nutzen.In diesem Artikel zeige ich dir,wie du Ollama auf einem Gaming-Laptop (z. B. HP Victus) mit NVIDIA RTX einrichtest und die GPU optimal konfigurierst. Dazu bekommst du praktische Terminal-Befehle, bekannte und weniger bekannte Snippets sowie Tipps, um das Maximum aus deiner Hardware herauszuholen.

Voraussetzungen: Ollama & NVIDIA RTX unter Linux

Voraussetzungen: Ollama & NVIDIA RTX unter Linux Für diese Anleitung gehe ich davon aus, dass du ein aktuelles Ubuntu, Debian oder eine vergleichbare Linux-Distribution nutzt und bereits eine NVIDIA RTX (z.B. 4050) Laptop-GPU verbaut ist.

Wichtige Voraussetzungen:
Aktuelle NVIDIA-Treiber (am besten aus dem offiziellen Repository)
Das Tool nvidia-smi zur Überwachung der GPU
Ollama installiert (Ollama Installationsanleitung)
Optional: CUDA-Toolkit, falls du Modelle selbst bauen möchtest

NVIDIA GPU für Ollama aktivieren: So geht’s

Ollama verwendet zur Beschleunigung von KI-Modellen standardmäßig entweder die CPU oder eine verfügbare GPU. Damit Ollama wirklich die NVIDIA RTX nutzt, musst du sicherstellen, dass die CUDA-Treiber korrekt installiert und die Umgebungsvariablen passend gesetzt sind.

Schritt 1: NVIDIA-Treiber und CUDA installieren

sudo apt update
sudo apt install nvidia-driver-535 nvidia-cuda-toolkit
reboot

Prüfe nach dem Neustart:

nvidia-smi

Die GPU sollte erkannt werden und im Output auftauchen.

Schritt 2: Ollama mit GPU-Support starten

Ollama erkennt CUDA automatisch, wenn alle Treiber korrekt sind. Mit folgendem Befehl kannst du Ollama explizit GPU-Support erzwingen:

OLLAMA_GPU=1 ollama run llama2

Oder dauerhaft für die Session:

export OLLAMA_GPU=1

Ollama startet nun mit GPU-Beschleunigung. Tipp: Überwache die GPU-Auslastung mit nvidia-smi in einem zweiten Terminal.

Welche NVIDIA-Treiber- und CUDA-Version ist optimal für Ollama?

Damit Ollama und andere KI-Modelle deine NVIDIA-GPU (z.B. RTX 4050) optimal ausnutzen, solltest du möglichst aktuelle NVIDIA-Grafiktreiber und das passende CUDA-Toolkit installiert haben. Das garantiert maximale Leistung und Kompatibilität.

Empfohlene Versionen (Stand 2024):

NVIDIA-Treiber: Version 535.x oder neuer (z.B. 570.133.07 ist ideal)
CUDA-Toolkit: Version 12.x oder neuer (z.B. CUDA 12.8 ist optimal)

Hinweis:Die Kombination aus NVIDIA-Treiber 570.133.07 und CUDA 12.8 ist aktuell (Stand Sommer 2024) auf dem neuesten Stand und hervorragend für Ollama, llama.cpp, Stable Diffusion, PyTorch, Tensorflow und andere KI-Frameworks geeignet.

So prüfst du deine Versionen im Terminal:

nvidia-smi

zeigt die installierte Treiber- und CUDA-Version an.

nvcc --version

Warum sind aktuelle Versionen wichtig?

Neue Treiber bieten bessere Performance, Stabilität und Sicherheitsupdates. Neue CUDA-Versionen bringen Unterstützung für aktuelle KI-Modelle und Grafikkarten. Bei alten Treibern kann es zu Problemen mit modernen KI-Anwendungen kommen.

Fazit

Mit einer RTX 4050, NVIDIA-Treiber 570.x und CUDA 12.8 bist du bestens ausgerüstet – sowohl für Ollama als auch für andere lokale KI-Lösungen.Tipp: Wenn du mehrere CUDA-Versionen parallel installiert hast, prüfe, ob das richtige Toolkit genutzt wird, oder setze ggf. die Umgebungsvariable CUDA_HOME/CUDA_PATH.

Quick Check: Wenn Ollama oder CUDA nicht wie erwartet funktionieren

1. Wird die GPU erkannt?

nvidia-smi

→ Sollte deine RTX-GPU samt Treiber und Auslastung anzeigen.

2. Funktioniert das CUDA Toolkit?

nvcc --version

→ Zeigt dir die installierte CUDA-Version.

3. Ist der richtige Treiber geladen?

lsmod | grep nvidia

→ Muss mindestens eine Zeile mit „nvidia“ enthalten.

4. Nutzt Ollama wirklich die GPU?

Starte Ollama im Debug-Modus:

OLLAMA_DEBUG=1 ollama run llama2

Achte auf Zeilen wie „ggml-cuda“ oder „CUDA backend“ im Log.

5. Wird VRAM genutzt?

In einem zweiten Terminal:

watch -n1 nvidia-smi

→ Beobachte, ob der Speicherbedarf steigt, wenn du ein Modell lädst.

6. Immer noch Probleme?

Reboot nach Installation oder Updates nicht vergessen!Prüfe Secure Boot im BIOS (ggf. deaktivieren).Prüfe, ob noch ein alter Open-Source-Treiber (nouveau) aktiv ist:

lsmod | grep nouveau

→ Sollte keine Ausgabe liefern, wenn der NVIDIA-Treiber aktiv ist.

Tipp:

Die meisten Probleme entstehen durch veraltete Treiber, fehlende Neustarts oder Konflikte mit Open-Source-Treibern. Bleibe immer aktuell und arbeite die Checks von oben nach unten ab!

Ollama mit NVIDIA RTX: So nutzt du die RTX-GPU für KI-Modelle auf dem Laptop