Outils pour utilisateurs

Outils du site


reseau:cloud:proxmox:lxcnvidia

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
reseau:cloud:proxmox:lxcnvidia [2026/03/30 14:37] – [SOLUTION OFFICIELLE POUR PROXMOX 9 + DEBIAN 13] techer.charles_educ-valadon-limoges.frreseau:cloud:proxmox:lxcnvidia [2026/03/30 15:08] (Version actuelle) – [Nvidia dans le Container LXC] techer.charles_educ-valadon-limoges.fr
Ligne 149: Ligne 149:
 AF:00.0 NVIDIA Corporation TU104GL [Tesla T4] AF:00.0 NVIDIA Corporation TU104GL [Tesla T4]
 B0:00.0 NVIDIA Corporation TU104GL [Tesla T4] B0:00.0 NVIDIA Corporation TU104GL [Tesla T4]
 +</code>
 +
 +  * vérifier que CUDA voit les deux cartes
 +
 +<code>
 +# nvidia-smi -L
 +GPU 0: Tesla T4 (UUID: GPU-e5bc6842-5aa8-b29e-aa13-922b15c893f9)
 +GPU 1: Tesla T4 (UUID: GPU-6ac33a99-2cb8-eb7d-6097-f1c29e4d1e51)
 </code> </code>
  
Ligne 200: Ligne 208:
   * GPU 1 → 0000:af:00.0    * GPU 1 → 0000:af:00.0 
  
-==== Problème Debian 13 + NVIDIA 590 pour les cartes Testla T4 ==== +  lancer un benchmark PCIe mémoire
- +
-Debian 13 (Trixie) est en version Testing, et utilise : +
-  * un kernel 6.7 6.8 / 6.17 selon build Proxmox +
-  * libdrm, libglvnd, libnvidia-ml plus récentes que Debian 12 +
-  * NVIDIA driver branche 590.xx (pas encore stabilisée multi-GPU) +
- +
-Sous Debian 13 + kernel récent, on observe : +
-  * Le kernel NVIDIA voit les deux GPU => (/proc/driver/nvidia/gpus → OK) +
-  * NVML (bibliothèque utilisée par nvidia-smi) ne recense qu’un seul GPU +
-    * => nvidia-smi n’affiche qu’un GPU +
-    * => topo -m n’affiche qu’un GPU +
-    * => nvidia-smi -i 1 = No devices found +
- +
-==== Réinstaller les pilotes NVIDIA pour Proxmox 9 + Debian 13 ==== +
- +
-  * Purge complète pour repartir propre+
  
 <code> <code>
-apt remove --purge -y 'nvidia-*' 'libnvidia-*' xserver-xorg-video-nvidia* pve-nvidia-vgpu-helper +# nvidia-smi topo -
-# apt autoremove --purge -y +        GPU0    GPU1    CPU Affinity    NUMA Affinity   GPU NUMA ID 
-# reboot +GPU0          NODE    24-35,72-83                   N/A 
-</code>+GPU1    NODE          24-35,72-83                   N/A
  
-   * Après reboot :+Legend:
  
-<code> +  X    = Self 
-lsmod | grep nvidia +  SYS  = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI) 
-Doit être vide +  NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node 
-</code> +  PHB  = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU) 
- +  PXB  = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge) 
-   * Corriger le bug multi‑GPU de Debian 13. Debian Trixie fournit deux versions différentes de NVML. Il faut forcre la bonne versions :+  PIX  = Connection traversing at most a single PCIe bridge 
 +  NV#  = Connection traversing a bonded set of # NVLinks 
 + </code>
  
 <code> <code>
-#apt install -y libnvidia-ml1 nvidia-utils +nvidia-smi -i 0 
-# update-initramfs --k all +Mon Mar 30 14:49:26 2026        
-# reboot ++-----------------------------------------------------------------------------------------+ 
-</code>+| NVIDIA-SMI 595.58.03              Driver Version: 595.58.03      CUDA Version: 13.2     | 
 ++-----------------------------------------+------------------------+----------------------+ 
 +| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC | 
 +| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. | 
 +|                                                                |               MIG M. | 
 +|=========================================+========================+======================| 
 +|    Tesla T4                       Off |   00000000:86:00.0 Off |                    0 | 
 +| N/A   62C    P0             27W /   70W |       0MiB /  15360MiB |      4%      Default | 
 +|                                                                |                  N/A | 
 ++-----------------------------------------+------------------------+----------------------+
  
-  * Ce correctif résout : ++-----------------------------------------------------------------------------------------+ 
-    * nvidia-smi qui n’affiche qu’un GPU +| Processes:                                                                              | 
-    * Failed to initialize NVML + GPU   GI   CI              PID   Type   Process name                        GPU Memory | 
-    * Driver/library mismatch +|        ID   ID                                                               Usage      | 
- +|=========================================================================================| 
-  * Vérifier les deux GPU +|  No running processes found                                                             | 
- ++-----------------------------------------------------------------------------------------+
-<code> +
-# nvidia-smi +
-On doit voir : +
-GPU0 Tesla T4 +
-GPU1 Tesla T4+
 </code> </code>
-  * Installer le driver NVIDIA officiel Debian 595 
  
-<code> +  charger le GPU 0
-# apt update +
-# apt install -y nvidia-driver firmware-nvidia-gsp +
-reboot +
-</code> +
-Afficher plus de lignes +
-Avec ton kernel 6.17, ce driver VA fonctionner (plus besoin de DKMS car le module est précompilé par Debian pour le kernel Proxmox !). +
- +
-  Installer le driver nvidia-driver-550 +
- +
-La branche 550 est compatible Debian 13 et ne souffre pas du bug NVML.+
  
 <code> <code>
-apt remove --purge -y nvidia-driver nvidia-dkms-* nvidia-kernel-common-* nvidia-kernel-source-* nvidia-utils-* libnvidia-ml-dev +# nvidia-smi --query-gpu=utilization.gpu --format=csv --loop=1 -i 0
-# apt autoremove --purge -+
-# reboot +
 </code> </code>
  
-  * Télécharger le driver NVIDIA stable pour Tesla T4 (La version 550.Explicit est actuellement la plus stable, et compatible CUDA 12/13).+  * charger le GPU 1
  
 <code> <code>
-wget https://us.download.nvidia.com/tesla/550.127.05/NVIDIA-Linux-x86_64-550.127.05.runchmod +x NVIDIA-Linux-x86_64-550.127.05.run +# nvidia-smi --query-gpu=utilization.gpu --format=csv --loop=1 -i 1
-# chmod +x NVIDIA-Linux-x86_64-550.127.05.run+
 </code> </code>
- 
-  * Lancer l’installation DKMS 
- 
-<code> 
-# ./NVIDIA-Linux-x86_64-550.127.05.run --dkms -m=kernel 
- 
-Répondre : 
- 
-“yes” pour DKMS 
-“no” pour nouveau (il sera blacklisté automatiquement) 
-</code> 
- 
-  * Puis : 
- 
-<code> 
-apt install nvidia-driver-550 
-reboot 
-</code> 
- 
-  = driver stable, multi-GPU, compatible T4 / CUDA 12 / CUDA 13. 
- 
 ===== Nvidia dans le Container LXC ===== ===== Nvidia dans le Container LXC =====
  
Ligne 321: Ligne 283:
 {{ :reseau:cloud:proxmox:ia_02.png |}} {{ :reseau:cloud:proxmox:ia_02.png |}}
 {{ :reseau:cloud:proxmox:ia_03.png |}} {{ :reseau:cloud:proxmox:ia_03.png |}}
 +
 +<WRAP center round info >
 +Ne plus installer le périphéirque **/dev/nvidia-modeset**
 +</WRAP>
  
   * Installez les drivers nvidia et la suite logicielle **cuda** dans le conteneur LXC (procédure semblable à celle de l'hote Proxmox).   * Installez les drivers nvidia et la suite logicielle **cuda** dans le conteneur LXC (procédure semblable à celle de l'hote Proxmox).
reseau/cloud/proxmox/lxcnvidia.1774874228.txt.gz · Dernière modification : 2026/03/30 14:37 de techer.charles_educ-valadon-limoges.fr