Ceci est une ancienne révision du document !

Table des matières

Proxmox : utiliser Ollama dans un conteneur LXC avec des GPU Nvidia
- Installer Ollama
- tester le modèle en console
  - Poser des questions en langage naturel

Proxmox : utiliser Ollama dans un conteneur LXC avec des GPU Nvidia

Lien : https://shionn.github.io/draft/nvidia-proxmox-lxc-passthrought-ollama.html

Installer Ollama

utiliser un conteneur avec les pilotes Nvidia
installer les prérequis

apt install -y curl zstd pciutils

L'installateur à besoin de lspci (dans pciutils)

installer Ollama

# wget https://ollama.com/install.sh
# bash ./install.sh
>>> Cleaning up old version at /usr/local/lib/ollama
>>> Installing ollama to /usr/local
>>> Downloading ollama-linux-amd64.tar.zst
########################################################################################################## 100.0%
>>> Creating ollama user...
>>> Adding ollama user to render group...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> Enabling and starting ollama service...
Created symlink '/etc/systemd/system/default.target.wants/ollama.service' -> '/etc/systemd/system/ollama.service'.
>>> NVIDIA GPU installed.

tester le modèle en console

# ollama run qwen2.5-coder:7b

Le modèle Qwen2.5‑Coder 7B dans Ollama en mode interactif est spécialisé pour le code.

Poser des questions en langage naturel

Il suffit simplement de taper une question comme :

Comment créer une API REST en Python ?

Le modèle répond dans le terminal.

Générer du code (tous langages) Comme il s’agit d’un modèle coder, on peux lui demander :

Écris une fonction en JavaScript qui trie une liste d’objets par date.

Ou même des projets complets :

Génère un Dockerfile pour une application FastAPI.

Expliquer du code :

Explique ce que fait ce script :

Il te donnera une explication détaillée.

Déboguer ou améliorer du code

Voici mon code, il plante. Trouve l’erreur.

ou

Optimise cette fonction pour la rendre plus rapide.

Travailler en conversation continue

Ollama garde l’état de la conversation tant que le processus est lancé. Il est alors possible d'enchaîner les prompts :
Maintenant rends le code compatible Python 3.12.

Quitter proprement

/bye

ou simplement CTRL + C.

📌 Options avancées après l’exécution 👉 Utiliser le modèle dans un script (API locale Ollama) Tu peux ouvrir une autre console et appeler l’API : Shellcurl http://localhost:11434/api/generate \ -d '{ “model”: “qwen2.5-coder:7b”, “prompt”: “Écris une classe Python.” }'Afficher plus de lignes

👉 L’utiliser dans VS Code ou un éditeur Beaucoup d’extensions permettent de configurer Ollama comme LLM local. Tu peux alors utiliser Qwen2.5‑Coder comme assistant de code directement dans l’IDE.

👉 Lancer en mode serveur Shellollama serveAfficher plus de lignes Le modèle devient accessible à d’autres outils (LM Studio, Continue, Cursor, etc.).

Si tu veux, je peux aussi :

te montrer comment installer un modèle LLM supplémentaire, te donner une liste des commandes utiles d’Ollama, ou te proposer un exemple de workflow complet pour coder avec Qwen2.5‑Coder.

**Ceci est une ancienne révision du document !**