reseau:cloud:proxmox:lxcnvidiaollama
Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
| reseau:cloud:proxmox:lxcnvidiaollama [2026/01/17 11:44] – [Présentation de Ollama] techer.charles_educ-valadon-limoges.fr | reseau:cloud:proxmox:lxcnvidiaollama [2026/01/18 19:00] (Version actuelle) – [Créer un service systemd] techer.charles_educ-valadon-limoges.fr | ||
|---|---|---|---|
| Ligne 5: | Ligne 5: | ||
| ===== Présentation de Ollama===== | ===== Présentation de Ollama===== | ||
| Ollama permet : | Ollama permet : | ||
| - | * d' | + | * d' |
| - | * de configurer automatiquement tous les paramètres techniques | + | * de configurer automatiquement tous les paramètres techniques, |
| - | | + | |
| - | Les données restent locales | + | Les données restent locales. |
| - | Un LLM (Large Language Model) est un programme informatique qui a été entraîné sur d’énormes quantités de texte (livres, articles, code source, pages web…). Grâce à cet entraînement, | + | Un **LLM** |
| - | * Les règles de la langue : grammaire, orthographe, | + | * Les **règles de la langue** : grammaire, orthographe, |
| - | * Les connaissances du monde : histoire, science, actualités (jusqu’à sa date de publication) | + | * Les **connaissances du monde** : histoire, science, actualités (jusqu’à sa date de publication), |
| - | * Les patterns de raisonnement : comment résoudre des problèmes, structurer une réponse | + | * Les **patterns de raisonnement** : comment résoudre des problèmes, structurer une réponse, |
| - | * Les conventions du code : syntaxe des langages, bonnes pratiques, patterns courants | + | * Les **conventions du code** : syntaxe des langages, bonnes pratiques, patterns courants. |
| Quand une question est posée à un LLM, il ne **cherche** pas la réponse dans une base de données. Il génère la réponse mot par mot, en prédisant quel mot est le plus probable après le précédent, | Quand une question est posée à un LLM, il ne **cherche** pas la réponse dans une base de données. Il génère la réponse mot par mot, en prédisant quel mot est le plus probable après le précédent, | ||
| Ligne 21: | Ligne 21: | ||
| Ollama peut faire fonctionner des LLM uniquement en RAM (512 Gio dans le serveur) mais si des GPU NVIDIA sont installés avec au moins 8 Gio de VRAM, Ollama les utilisera automatiquement. Les deux cartes installées possèdent chacune 16 Gio de VRAM. | Ollama peut faire fonctionner des LLM uniquement en RAM (512 Gio dans le serveur) mais si des GPU NVIDIA sont installés avec au moins 8 Gio de VRAM, Ollama les utilisera automatiquement. Les deux cartes installées possèdent chacune 16 Gio de VRAM. | ||
| - | La quantité de RAM est le facteur déterminant de la rapidité des réponses du LLLM. | + | La quantité de RAM est le facteur déterminant de la rapidité des réponses du LLM. |
| Quand un modèle IA (LLM) est lancé avec Ollama, celui-ci est entièrement chargé en mémoire. Si votre ordinateur n’a pas assez de RAM, le modèle ne pourra pas être chargé, ou sera très lent car il devra utiliser le disque dur (**swap**). | Quand un modèle IA (LLM) est lancé avec Ollama, celui-ci est entièrement chargé en mémoire. Si votre ordinateur n’a pas assez de RAM, le modèle ne pourra pas être chargé, ou sera très lent car il devra utiliser le disque dur (**swap**). | ||
| Ligne 27: | Ligne 27: | ||
| ^ RAM disponible | ^ RAM disponible | ||
| |4 GB |❌ Insuffisant | |4 GB |❌ Insuffisant | ||
| - | |8 GB |Modèles légers (3B) Fonctionnel mais limité| | + | |8 GB |Modèles légers (3B) |
| |16 GB |Modèles moyens (7B) |Bonne expérience pour la plupart des usages| | |16 GB |Modèles moyens (7B) |Bonne expérience pour la plupart des usages| | ||
| |32 GB |Grands modèles (13B) |Excellente expérience| | |32 GB |Grands modèles (13B) |Excellente expérience| | ||
| |64 GB+ |Très grands modèles (70B) |Usage professionnel| | |64 GB+ |Très grands modèles (70B) |Usage professionnel| | ||
| - | * Espace disque typique occupé par chaque modèle IA : | + | ==== Espace disque typique occupé par chaque modèle IA : ==== |
| ^ Modèle | ^ Modèle | ||
| Ligne 39: | Ligne 39: | ||
| |CodeLlama (7B) |~4 GB| | |CodeLlama (7B) |~4 GB| | ||
| |Llama 3.1 (70B) |~40 GB| | |Llama 3.1 (70B) |~40 GB| | ||
| + | |||
| + | ==== Les paramètre d'un modèle de langage (LLM) ==== | ||
| + | |||
| + | Les modèles de langage (LLM) disponibles sont caractérisés par le nombre de paramètres gérés : **3B** signifie **3 Billion parameters**, | ||
| + | |||
| + | Plus un modèle a de paramètres, | ||
| + | * capturer des nuances linguistiques complexes, | ||
| + | * mémoriser des patterns, | ||
| + | * généraliser à partir d’exemples, | ||
| + | * fournir des réponses plus fines. | ||
| + | |||
| + | ==== Comparaison rapide ==== | ||
| + | |||
| + | ^Taille^RAM minimale^Usage typique^ | ||
| + | | 1-3B | 4-8 GB |Bon équilibre : Questions simples, résumés, traduction | ||
| + | | 7B | 8-16 GB |Très bon généraliste : Code, rédaction, raisonnement | ||
| + | | 13B | 16-32 GB |Analyse complexe, créativité | ||
| + | | 70B | 64 GB+ |Niveau proche du SOTA (State Of The Art, état de l’art) : Recherche, usage professionnel, | ||
| + | |500B+|entre 300 Go et plus de 2 To de RAM, selon la précision. | Modèles géants (GPT-5, etc.) : Raisonnement avancé| | ||
| + | |||
| + | Pour un usage personnel, 3B est un excellent compromis. | ||
| + | |||
| + | |||
| ===== Installer Ollama ===== | ===== Installer Ollama ===== | ||
| Ligne 108: | Ligne 131: | ||
| - | <WRAP center round info > | ||
| - | Signification du paramètre **7B** | ||
| - | Quand on parle de **Qwen2.5‑Coder 7B**, le **7B** signifie 7 milliards de paramètres, | ||
| - | |||
| - | * Plus de paramètres = modèle plus “intelligent” mais plus gourmand en ressources | ||
| - | * Moins de paramètres = modèle plus rapide mais potentiellement moins précis | ||
| - | * Pour un usage personnel, 3B est un excellent compromis. | ||
| - | |||
| - | ^Taille^RAM minimale^Usage typique^ | ||
| - | | 1-3B | 4-8 GB | Questions simples, résumés, traduction | ||
| - | | 7B | 8-16 GB | Code, rédaction, raisonnement | ||
| - | | 13B | 16-32 GB | Analyse complexe, créativité | ||
| - | | 70B | 64 GB+ | Recherche, usage professionnel | ||
| - | |||
| - | |||
| - | </ | ||
| ==== Poser des questions en langage naturel ==== | ==== Poser des questions en langage naturel ==== | ||
| Ligne 299: | Ligne 306: | ||
| - | ==== Exécuter | + | ==== Installer |
| * Créer l' | * Créer l' | ||
| Ligne 345: | Ligne 352: | ||
| chown -R openwebui: | chown -R openwebui: | ||
| </ | </ | ||
| - | ❗ 2. Pourquoi tu n’as p | + | |
| ==== Créer un service systemd ==== | ==== Créer un service systemd ==== | ||
| * créer le fichier **/ | * créer le fichier **/ | ||
| Ligne 352: | Ligne 359: | ||
| [Unit] | [Unit] | ||
| Description=Open WebUI service | Description=Open WebUI service | ||
| - | After=network.target | + | After=network-online.target |
| + | Wants=network-online.target | ||
| [Service] | [Service] | ||
| Ligne 358: | Ligne 366: | ||
| User=openwebui | User=openwebui | ||
| Group=openwebui | Group=openwebui | ||
| - | WorkingDirectory=/ | + | WorkingDirectory=/ |
| - | ExecStart=/ | + | |
| - | Restart=always | + | |
| Environment=" | Environment=" | ||
| Environment=" | Environment=" | ||
| + | |||
| + | #Attendre que tout les services soient actifs | ||
| + | ExecStartPre=/ | ||
| + | ExecStart=/ | ||
| + | Restart=always | ||
| + | RestartSec=3 | ||
| [Install] | [Install] | ||
| WantedBy=multi-user.target | WantedBy=multi-user.target | ||
| + | |||
| </ | </ | ||
reseau/cloud/proxmox/lxcnvidiaollama.1768646688.txt.gz · Dernière modification : 2026/01/17 11:44 de techer.charles_educ-valadon-limoges.fr
