reseau:cloud:proxmox:lxcnvidia
Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
| reseau:cloud:proxmox:lxcnvidia [2026/03/30 14:37] – [SOLUTION OFFICIELLE POUR PROXMOX 9 + DEBIAN 13] techer.charles_educ-valadon-limoges.fr | reseau:cloud:proxmox:lxcnvidia [2026/03/30 15:08] (Version actuelle) – [Nvidia dans le Container LXC] techer.charles_educ-valadon-limoges.fr | ||
|---|---|---|---|
| Ligne 149: | Ligne 149: | ||
| AF:00.0 NVIDIA Corporation TU104GL [Tesla T4] | AF:00.0 NVIDIA Corporation TU104GL [Tesla T4] | ||
| B0:00.0 NVIDIA Corporation TU104GL [Tesla T4] | B0:00.0 NVIDIA Corporation TU104GL [Tesla T4] | ||
| + | </ | ||
| + | |||
| + | * vérifier que CUDA voit les deux cartes | ||
| + | |||
| + | < | ||
| + | # nvidia-smi -L | ||
| + | GPU 0: Tesla T4 (UUID: GPU-e5bc6842-5aa8-b29e-aa13-922b15c893f9) | ||
| + | GPU 1: Tesla T4 (UUID: GPU-6ac33a99-2cb8-eb7d-6097-f1c29e4d1e51) | ||
| </ | </ | ||
| Ligne 200: | Ligne 208: | ||
| * GPU 1 → 0000: | * GPU 1 → 0000: | ||
| - | ==== Problème Debian 13 + NVIDIA 590 pour les cartes Testla T4 ==== | + | |
| - | + | ||
| - | Debian 13 (Trixie) est en version Testing, et utilise : | + | |
| - | | + | |
| - | * libdrm, libglvnd, libnvidia-ml plus récentes que Debian 12 | + | |
| - | * NVIDIA driver branche 590.xx (pas encore stabilisée multi-GPU) | + | |
| - | + | ||
| - | Sous Debian 13 + kernel récent, on observe : | + | |
| - | * Le kernel NVIDIA voit les deux GPU => (/ | + | |
| - | * NVML (bibliothèque utilisée par nvidia-smi) ne recense qu’un seul GPU | + | |
| - | * => nvidia-smi n’affiche qu’un GPU | + | |
| - | * => topo -m n’affiche qu’un GPU | + | |
| - | * => nvidia-smi -i 1 = No devices found | + | |
| - | + | ||
| - | ==== Réinstaller les pilotes NVIDIA pour Proxmox 9 + Debian 13 ==== | + | |
| - | + | ||
| - | * Purge complète pour repartir propre | + | |
| < | < | ||
| - | # apt remove --purge -y 'nvidia-*' ' | + | # nvidia-smi topo -m |
| - | # apt autoremove | + | GPU0 GPU1 CPU Affinity |
| - | # reboot | + | GPU0 |
| - | </code> | + | GPU1 NODE |
| - | * Après reboot | + | Legend: |
| - | < | + | X = Self |
| - | lsmod | grep nvidia | + | |
| - | Doit être vide | + | NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node |
| - | </ | + | PHB = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU) |
| - | + | PXB = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge) | |
| - | * Corriger le bug multi‑GPU de Debian 13. Debian Trixie fournit deux versions différentes de NVML. Il faut forcre la bonne versions : | + | PIX = Connection traversing at most a single PCIe bridge |
| + | NV# = Connection traversing a bonded set of # NVLinks | ||
| + | </ | ||
| < | < | ||
| - | #apt install | + | # nvidia-smi -i 0 |
| - | # update-initramfs | + | Mon Mar 30 14:49:26 2026 |
| - | # reboot | + | +-----------------------------------------------------------------------------------------+ |
| - | </code> | + | | NVIDIA-SMI 595.58.03 |
| + | +-----------------------------------------+------------------------+----------------------+ | ||
| + | | GPU Name | ||
| + | | Fan Temp | ||
| + | | | ||
| + | |=========================================+========================+======================| | ||
| + | | | ||
| + | | N/A | ||
| + | | | ||
| + | +-----------------------------------------+------------------------+----------------------+ | ||
| - | * Ce correctif résout : | + | +-----------------------------------------------------------------------------------------+ |
| - | * nvidia-smi qui n’affiche qu’un GPU | + | | Processes: |
| - | * Failed to initialize NVML | + | | |
| - | * Driver/ | + | | ID |
| - | + | |=========================================================================================| | |
| - | | + | | No running processes found | |
| - | + | +-----------------------------------------------------------------------------------------+ | |
| - | < | + | |
| - | # nvidia-smi | + | |
| - | On doit voir : | + | |
| - | GPU0 Tesla T4 | + | |
| - | GPU1 Tesla T4 | + | |
| </ | </ | ||
| - | * Installer le driver NVIDIA officiel Debian 595 | ||
| - | < | + | |
| - | # apt update | + | |
| - | # apt install -y nvidia-driver firmware-nvidia-gsp | + | |
| - | reboot | + | |
| - | </ | + | |
| - | Afficher plus de lignes | + | |
| - | Avec ton kernel 6.17, ce driver VA fonctionner (plus besoin de DKMS car le module est précompilé par Debian pour le kernel Proxmox !). | + | |
| - | + | ||
| - | | + | |
| - | + | ||
| - | La branche 550 est compatible Debian 13 et ne souffre pas du bug NVML. | + | |
| < | < | ||
| - | # apt remove --purge -y nvidia-driver nvidia-dkms-* nvidia-kernel-common-* nvidia-kernel-source-* nvidia-utils-* libnvidia-ml-dev | + | # nvidia-smi --query-gpu=utilization.gpu |
| - | # apt autoremove | + | |
| - | # reboot | + | |
| </ | </ | ||
| - | * Télécharger | + | * charger |
| < | < | ||
| - | # wget https:// | + | # nvidia-smi --query-gpu=utilization.gpu --format=csv |
| - | # chmod +x NVIDIA-Linux-x86_64-550.127.05.run | + | |
| </ | </ | ||
| - | |||
| - | * Lancer l’installation DKMS | ||
| - | |||
| - | < | ||
| - | # ./ | ||
| - | |||
| - | Répondre : | ||
| - | |||
| - | “yes” pour DKMS | ||
| - | “no” pour nouveau (il sera blacklisté automatiquement) | ||
| - | </ | ||
| - | |||
| - | * Puis : | ||
| - | |||
| - | < | ||
| - | apt install nvidia-driver-550 | ||
| - | reboot | ||
| - | </ | ||
| - | |||
| - | = driver stable, multi-GPU, compatible T4 / CUDA 12 / CUDA 13. | ||
| - | |||
| ===== Nvidia dans le Container LXC ===== | ===== Nvidia dans le Container LXC ===== | ||
| Ligne 321: | Ligne 283: | ||
| {{ : | {{ : | ||
| {{ : | {{ : | ||
| + | |||
| + | <WRAP center round info > | ||
| + | Ne plus installer le périphéirque **/ | ||
| + | </ | ||
| * Installez les drivers nvidia et la suite logicielle **cuda** dans le conteneur LXC (procédure semblable à celle de l'hote Proxmox). | * Installez les drivers nvidia et la suite logicielle **cuda** dans le conteneur LXC (procédure semblable à celle de l'hote Proxmox). | ||
reseau/cloud/proxmox/lxcnvidia.1774874228.txt.gz · Dernière modification : 2026/03/30 14:37 de techer.charles_educ-valadon-limoges.fr
