Table des matières

Proxmox : utiliser Ollama dans un conteneur LXC avec des GPU Nvidia

Lien : https://shionn.github.io/draft/nvidia-proxmox-lxc-passthrought-ollama.html

Installer Ollama

apt install -y curl zstd pciutils

L'installateur à besoin de lspci (dans pciutils)

# wget https://ollama.com/install.sh
# bash ./install.sh
>>> Cleaning up old version at /usr/local/lib/ollama
>>> Installing ollama to /usr/local
>>> Downloading ollama-linux-amd64.tar.zst
########################################################################################################## 100.0%
>>> Creating ollama user...
>>> Adding ollama user to render group...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> Enabling and starting ollama service...
Created symlink '/etc/systemd/system/default.target.wants/ollama.service' -> '/etc/systemd/system/ollama.service'.
>>> NVIDIA GPU installed.

Tester le modèle en console

# ollama run qwen2.5-coder:7b

Le modèle Qwen2.5‑Coder 7B dans Ollama en mode interactif est spécialisé pour le code.

Poser des questions en langage naturel

Il suffit simplement de taper une question comme :

Le modèle répond dans le terminal.

Générer du code (tous langages) Comme il s’agit d’un modèle coder, on peux lui demander :

Ou même des projets complets :

Expliquer du code :

<ton code ici>

Il te donnera une explication détaillée.

Déboguer ou améliorer du code

ou

Travailler en conversation continue

Quitter proprement

ou simplement CTRL + C.

Utiliser le modèle dans un script (API locale Ollama)

curl http://localhost:11434/api/generate \
  -d '{ "model": "qwen2.5-coder:7b", "prompt": "Écris une classe Python." }'

Utiliser dans VS Code ou un éditeur

Beaucoup d’extensions permettent de configurer Ollama comme LLM local. Qwen2.5‑Coder peux alors être utilisé comme assistant de code directement dans l’IDE.

Lancer en mode serveur

ollama serve

Le modèle devient accessible à d’autres outils (LM Studio, Continue, Cursor, etc.).