Outils pour utilisateurs

Outils du site


reseau:cloud:proxmox:lxcnvidiaollama

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
reseau:cloud:proxmox:lxcnvidiaollama [2026/01/17 11:52] – [Présentation de Ollama] techer.charles_educ-valadon-limoges.frreseau:cloud:proxmox:lxcnvidiaollama [2026/01/18 19:00] (Version actuelle) – [Créer un service systemd] techer.charles_educ-valadon-limoges.fr
Ligne 5: Ligne 5:
 ===== Présentation de Ollama===== ===== Présentation de Ollama=====
 Ollama permet : Ollama permet :
-   * d'installer un modèle LLM +   * d'installer un **modèle LLM** de son choix, 
-   * de configurer automatiquement tous les paramètres techniques +   * de configurer automatiquement tous les paramètres techniques, 
-   dispose d'une interface simple pour discuter avec l’IA+   de disposer d'une interface simple pour interagir avec l’IA.
  
-Les données restent locales+Les données restent locales.
  
-Un LLM  (Large Language Model) est un programme informatique qui a été entraîné sur d’énormes quantités de texte (livres, articles, code source, pages web…). Grâce à cet entraînement, il a appris : +Un **LLM**  (Large Language Model) est un programme informatique qui a été entraîné sur d’énormes quantités de texte (livres, articles, code source, pages web…). Grâce à cet entraînement, il a appris : 
-  * Les règles de la langue : grammaire, orthographe, syntaxe +  * Les **règles de la langue** : grammaire, orthographe, syntaxe, 
-  * Les connaissances du monde : histoire, science, actualités (jusqu’à sa date de publication) +  * Les **connaissances du monde** : histoire, science, actualités (jusqu’à sa date de publication), 
-  * Les patterns de raisonnement : comment résoudre des problèmes, structurer une réponse +  * Les **patterns de raisonnement** : comment résoudre des problèmes, structurer une réponse, 
-  * Les conventions du code : syntaxe des langages, bonnes pratiques, patterns courants+  * Les **conventions du code** : syntaxe des langages, bonnes pratiques, patterns courants.
  
 Quand une question est posée à un LLM, il ne **cherche** pas la réponse dans une base de données. Il génère la réponse mot par mot, en prédisant quel mot est le plus probable après le précédent, compte tenu de votre question et de tout ce qu’il a appris. Quand une question est posée à un LLM, il ne **cherche** pas la réponse dans une base de données. Il génère la réponse mot par mot, en prédisant quel mot est le plus probable après le précédent, compte tenu de votre question et de tout ce qu’il a appris.
Ligne 21: Ligne 21:
 Ollama peut faire fonctionner des LLM uniquement en RAM (512 Gio dans le serveur) mais si des GPU NVIDIA sont installés avec au moins 8 Gio de VRAM, Ollama les utilisera automatiquement. Les deux cartes installées possèdent chacune 16 Gio de VRAM. Ollama peut faire fonctionner des LLM uniquement en RAM (512 Gio dans le serveur) mais si des GPU NVIDIA sont installés avec au moins 8 Gio de VRAM, Ollama les utilisera automatiquement. Les deux cartes installées possèdent chacune 16 Gio de VRAM.
  
-La quantité de RAM est le facteur déterminant de la rapidité des réponses du LLLM.+La quantité de RAM est le facteur déterminant de la rapidité des réponses du LLM.
  
 Quand un modèle IA (LLM) est lancé avec Ollama, celui-ci est entièrement chargé en mémoire. Si votre ordinateur n’a pas assez de RAM, le modèle ne pourra pas être chargé, ou sera très lent car il devra utiliser le disque dur (**swap**). Quand un modèle IA (LLM) est lancé avec Ollama, celui-ci est entièrement chargé en mémoire. Si votre ordinateur n’a pas assez de RAM, le modèle ne pourra pas être chargé, ou sera très lent car il devra utiliser le disque dur (**swap**).
Ligne 27: Ligne 27:
 ^  RAM  disponible  ^  Modèles utilisables  ^  Expérience  ^ ^  RAM  disponible  ^  Modèles utilisables  ^  Expérience  ^
 |4 GB |❌ Insuffisant  |Ollama refusera de lancer les modèles| |4 GB |❌ Insuffisant  |Ollama refusera de lancer les modèles|
-|8 GB |Modèles légers (3B)  Fonctionnel mais limité|+|8 GB |Modèles légers (3B)  |Fonctionnel mais limité|
 |16 GB |Modèles moyens (7B) |Bonne expérience pour la plupart des usages| |16 GB |Modèles moyens (7B) |Bonne expérience pour la plupart des usages|
 |32 GB |Grands modèles (13B) |Excellente expérience| |32 GB |Grands modèles (13B) |Excellente expérience|
 |64 GB+ |Très grands modèles (70B) |Usage professionnel| |64 GB+ |Très grands modèles (70B) |Usage professionnel|
  
-  * Espace disque typique occupé par chaque modèle IA  :+==== Espace disque typique occupé par chaque modèle IA  : ====
  
 ^  Modèle  ^  Taille sur disque  ^ ^  Modèle  ^  Taille sur disque  ^
Ligne 40: Ligne 40:
 |Llama 3.1 (70B) |~40 GB| |Llama 3.1 (70B) |~40 GB|
  
-  * Les paramètre d'un modèle de langage (LLM)?+==== Les paramètre d'un modèle de langage (LLM) ====
  
-Les modèles de langage (LLM) disponibles sont caractérisés par le nombre de paramètres gérés : **3B** signifie **3 Billion parameters**, soit 3 milliards de paramètres.+Les modèles de langage (LLM) disponibles sont caractérisés par le nombre de paramètres gérés : **3B** signifie **3 Billion parameters**, soit 3 milliards de paramètres ou nombre de **connexions neuronales** dans le modèle.
  
 Plus un modèle a de paramètres, plus il peut : Plus un modèle a de paramètres, plus il peut :
-  * capturer des nuances linguistiques complexes +  * capturer des nuances linguistiques complexes, 
-  * mémoriser des patterns +  * mémoriser des patterns, 
-  * généraliser à partir d’exemples +  * généraliser à partir d’exemples, 
-  * fournir des réponses plus fines+  * fournir des réponses plus fines
 + 
 +==== Comparaison rapide ==== 
 + 
 +^Taille^RAM minimale^Usage typique^ 
 +|  1-3B  |  4-8 GB  |Bon équilibre : Questions simples, résumés, traduction 
 +|  7B  |  8-16 GB  |Très bon généraliste : Code, rédaction, raisonnement 
 +|  13B  |  16-32 GB  |Analyse complexe, créativité 
 +|  70B  |  64 GB+  |Niveau proche du SOTA (State Of The Art, état de l’art) : Recherche, usage professionnel,   | 
 +|500B+|entre 300 Go et plus de 2 To de RAM, selon la précision. | Modèles géants (GPT-5, etc.) : Raisonnement avancé| 
 + 
 +Pour un usage personnel, 3B est un excellent compromis.
  
-  * Comparaison rapide 
  
-^  Taille  ^  Exemples  ^  Capacités  ^ 
-|1B|TinyLlama|Basique| 
-|3B|Gemma 2 2.6B, LLaMA 3.1 3B|Bon équilibre| 
-|7B|LLaMA 3 8B|Très bon généraliste| 
-|70B|LLaMA 3.1 70B|Niveau proche du SOTA (State Of The Art, état de l’art)| 
-|500B+|Modèles géants (GPT-5, etc.)|Raisonnement avancé| 
  
 ===== Installer Ollama ===== ===== Installer Ollama =====
Ligne 127: Ligne 131:
  
  
-<WRAP center round info > 
-Signification du paramètre **7B** 
  
-Quand on parle de **Qwen2.5‑Coder 7B**, le **7B** signifie 7 milliards de paramètres, c'est à dire le nombre de **connexions neuronales** dans le modèle. 
- 
-  * Plus de paramètres = modèle plus “intelligent” mais plus gourmand en ressources 
-  * Moins de paramètres = modèle plus rapide mais potentiellement moins précis 
-  * Pour un usage personnel, 3B est un excellent compromis. 
- 
-^Taille^RAM minimale^Usage typique^ 
-|  1-3B  |  4-8 GB  |  Questions simples, résumés, traduction  | 
-|  7B  |  8-16 GB  |  Code, rédaction, raisonnement  | 
-|  13B  |  16-32 GB  |  Analyse complexe, créativité  | 
-|  70B  |  64 GB+  |  Recherche, usage professionnel  | 
- 
- 
-</WRAP> 
  
 ==== Poser des questions en langage naturel ==== ==== Poser des questions en langage naturel ====
Ligne 318: Ligne 306:
    
  
-==== Exécuter open‑webui ====+==== Installer open‑webui ====
  
   * Créer l'environnement virtuel avec la nouvelle version Python dans le dossier **/opt/open-webui** :   * Créer l'environnement virtuel avec la nouvelle version Python dans le dossier **/opt/open-webui** :
Ligne 364: Ligne 352:
 chown -R openwebui:openwebui /opt/open-webui chown -R openwebui:openwebui /opt/open-webui
 </code> </code>
-❗ 2. Pourquoi tu n’as p+
 ==== Créer un service systemd ==== ==== Créer un service systemd ====
   * créer le fichier **/etc/systemd/system/openwebui.service** avec le contenu suivant   * créer le fichier **/etc/systemd/system/openwebui.service** avec le contenu suivant
Ligne 371: Ligne 359:
 [Unit] [Unit]
 Description=Open WebUI service Description=Open WebUI service
-After=network.target+After=network-online.target 
 +Wants=network-online.target
  
 [Service] [Service]
Ligne 377: Ligne 366:
 User=openwebui User=openwebui
 Group=openwebui Group=openwebui
-WorkingDirectory=/opt/openwebui +WorkingDirectory=/opt/open-webui
-ExecStart=/opt/open-webui/venv/bin/open-webui serve --host 0.0.0.0 --port 8080 +
-Restart=always+
 Environment="PATH=/opt/open-webui/venv/bin:/usr/local/bin:/usr/bin" Environment="PATH=/opt/open-webui/venv/bin:/usr/local/bin:/usr/bin"
 Environment="PYTHONUNBUFFERED=1" Environment="PYTHONUNBUFFERED=1"
 +
 +#Attendre que tout les services soient actifs
 +ExecStartPre=/bin/sleep 5
 +ExecStart=/opt/open-webui/venv/bin/open-webui serve --host 0.0.0.0 --port 8080
 +Restart=always
 +RestartSec=3
  
 [Install] [Install]
 WantedBy=multi-user.target WantedBy=multi-user.target
 +
 </code> </code>
  
reseau/cloud/proxmox/lxcnvidiaollama.1768647144.txt.gz · Dernière modification : 2026/01/17 11:52 de techer.charles_educ-valadon-limoges.fr