====== Proxmox : utiliser Ollama dans un conteneur LXC avec des GPU Nvidia ======
Lien : https://shionn.github.io/draft/nvidia-proxmox-lxc-passthrought-ollama.html
===== Installer Ollama =====
* utiliser un conteneur avec les pilotes Nvidia
* installer les prérequis
apt install -y curl zstd pciutils
L'installateur à besoin de lspci (dans pciutils)
* installer Ollama
# wget https://ollama.com/install.sh
# bash ./install.sh
>>> Cleaning up old version at /usr/local/lib/ollama
>>> Installing ollama to /usr/local
>>> Downloading ollama-linux-amd64.tar.zst
########################################################################################################## 100.0%
>>> Creating ollama user...
>>> Adding ollama user to render group...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> Enabling and starting ollama service...
Created symlink '/etc/systemd/system/default.target.wants/ollama.service' -> '/etc/systemd/system/ollama.service'.
>>> NVIDIA GPU installed.
===== Tester le modèle en console =====
# ollama run qwen2.5-coder:7b
Le modèle Qwen2.5‑Coder 7B dans Ollama en mode interactif est spécialisé pour le code.
==== Poser des questions en langage naturel ====
Il suffit simplement de taper une question comme :
* Comment créer une API REST en Python ?
Le modèle répond dans le terminal.
Générer du code (tous langages)
Comme il s’agit d’un modèle coder, on peux lui demander :
* Écris une fonction en JavaScript qui trie une liste d’objets par date.
Ou même des projets complets :
* Génère un Dockerfile pour une application FastAPI.
Expliquer du code :
* Explique ce que fait ce script :
Il te donnera une explication détaillée.
Déboguer ou améliorer du code
* Voici mon code, il plante. Trouve l’erreur.
ou
* Optimise cette fonction pour la rendre plus rapide.
Travailler en conversation continue
* Ollama garde l’état de la conversation tant que le processus est lancé. Il est alors possible d'enchaîner les prompts :
* Maintenant rends le code compatible Python 3.12.
Quitter proprement
* /bye
ou simplement CTRL + C.
==== Utiliser le modèle dans un script (API locale Ollama) ====
* depuis une autre console, pour appeler l’API :
curl http://localhost:11434/api/generate \
-d '{ "model": "qwen2.5-coder:7b", "prompt": "Écris une classe Python." }'
==== Utiliser dans VS Code ou un éditeur ====
Beaucoup d’extensions permettent de configurer Ollama comme LLM local. **Qwen2.5‑Coder** peux alors être utilisé comme assistant de code directement dans l’IDE.
==== Lancer en mode serveur ====
ollama serve
Le modèle devient accessible à d’autres outils (LM Studio, Continue, Cursor, etc.).