Outils pour utilisateurs

Outils du site


reseau:cloud:proxmox:lxcnvidia

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
reseau:cloud:proxmox:lxcnvidia [2026/03/30 14:25] – [SOLUTION OFFICIELLE POUR PROXMOX 9 + DEBIAN 13] techer.charles_educ-valadon-limoges.frreseau:cloud:proxmox:lxcnvidia [2026/03/30 15:08] (Version actuelle) – [Nvidia dans le Container LXC] techer.charles_educ-valadon-limoges.fr
Ligne 149: Ligne 149:
 AF:00.0 NVIDIA Corporation TU104GL [Tesla T4] AF:00.0 NVIDIA Corporation TU104GL [Tesla T4]
 B0:00.0 NVIDIA Corporation TU104GL [Tesla T4] B0:00.0 NVIDIA Corporation TU104GL [Tesla T4]
 +</code>
 +
 +  * vérifier que CUDA voit les deux cartes
 +
 +<code>
 +# nvidia-smi -L
 +GPU 0: Tesla T4 (UUID: GPU-e5bc6842-5aa8-b29e-aa13-922b15c893f9)
 +GPU 1: Tesla T4 (UUID: GPU-6ac33a99-2cb8-eb7d-6097-f1c29e4d1e51)
 </code> </code>
  
Ligne 200: Ligne 208:
   * GPU 1 → 0000:af:00.0    * GPU 1 → 0000:af:00.0 
  
-==== Problème Debian 13 + NVIDIA 590 pour les cartes Testla T4 ====+  * lancer un benchmark PCIe / mémoire
  
-Debian 13 (Trixie) est en version Testing, et utilise : +<code> 
-  * un kernel 6.7 / 6.8 / 6.17 selon build Proxmox +# nvidia-smi topo -m 
-  * libdrmlibglvnd, libnvidia-ml plus récentes que Debian 12 +        GPU0    GPU1    CPU Affinity    NUMA Affinity   GPU NUMA ID 
-  * NVIDIA driver branche 590.xx (pas encore stabilisée multi-GPU)+GPU0          NODE    24-35,72-83                   N/A 
 +GPU1    NODE          24-35,72-83                   N/A
  
-Sous Debian 13 + kernel récent, on observe : +Legend:
-  * Le kernel NVIDIA voit les deux GPU => (/proc/driver/nvidia/gpus → OK) +
-  * NVML (bibliothèque utilisée par nvidia-smi) ne recense qu’un seul GPU +
-    * => nvidia-smi n’affiche qu’un GPU +
-    * => topo -m n’affiche qu’un GPU +
-    * => nvidia-smi -i 1 = No devices found+
  
-==== SOLUTION OFFICIELLE POUR PROXMOX 9 + DEBIAN 13 ==== +  X    Self 
- +  SYS  Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI) 
-  * Installer le driver nvidia-driver-550 +  NODE Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node 
- +  PHB  Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU) 
-La branche 550 est compatible Debian 13 et ne souffre pas du bug NVML.+  PXB  Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge) 
 +  PIX  Connection traversing at most a single PCIe bridge 
 +  NV#  = Connection traversing a bonded set of # NVLinks 
 + </code>
  
 <code> <code>
-apt remove --purge -y nvidia-driver nvidia-dkms-* nvidia-kernel-common-* nvidia-kernel-source-* nvidia-utils-* libnvidia-ml-dev +nvidia-smi -i 0 
-# apt autoremove --purge -y +Mon Mar 30 14:49:26 2026        
-# reboot++-----------------------------------------------------------------------------------------+ 
 +| NVIDIA-SMI 595.58.03              Driver Version: 595.58.03      CUDA Version: 13.2     | 
 ++-----------------------------------------+------------------------+----------------------+ 
 +| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC | 
 +| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. | 
 +|                                                                |               MIG M. | 
 +|=========================================+========================+======================| 
 +|    Tesla T4                       Off |   00000000:86:00.0 Off |                    0 | 
 +| N/A   62C    P0             27W /   70W |       0MiB /  15360MiB |      4%      Default | 
 +|                                                                |                  N/A | 
 ++-----------------------------------------+------------------------+----------------------+
  
 ++-----------------------------------------------------------------------------------------+
 +| Processes:                                                                              |
 +|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
 +|        ID   ID                                                               Usage      |
 +|=========================================================================================|
 +|  No running processes found                                                             |
 ++-----------------------------------------------------------------------------------------+
 </code> </code>
  
-  * Télécharger le driver NVIDIA stable pour Tesla T4 (La version 550.Explicit est actuellement la plus stable, et compatible CUDA 12/13).+  * charger le GPU 0
  
 <code> <code>
-wget https://us.download.nvidia.com/tesla/550.127.05/NVIDIA-Linux-x86_64-550.127.05.runchmod +x NVIDIA-Linux-x86_64-550.127.05.run +# nvidia-smi --query-gpu=utilization.gpu --format=csv --loop=1 -i 0
-# chmod +x NVIDIA-Linux-x86_64-550.127.05.run+
 </code> </code>
  
-  * Lancer l’installation DKMS+  * charger le GPU 1
  
 <code> <code>
-./NVIDIA-Linux-x86_64-550.127.05.run --dkms -m=kernel +nvidia-smi --query-gpu=utilization.gpu --format=csv --loop=1 -i 1
- +
-Répondre : +
- +
-“yes” pour DKMS +
-“no” pour nouveau (il sera blacklisté automatiquement)+
 </code> </code>
- 
-  * Puis : 
- 
-<code> 
-apt install nvidia-driver-550 
-reboot 
-</code> 
- 
-  = driver stable, multi-GPU, compatible T4 / CUDA 12 / CUDA 13. 
- 
 ===== Nvidia dans le Container LXC ===== ===== Nvidia dans le Container LXC =====
  
Ligne 275: Ligne 283:
 {{ :reseau:cloud:proxmox:ia_02.png |}} {{ :reseau:cloud:proxmox:ia_02.png |}}
 {{ :reseau:cloud:proxmox:ia_03.png |}} {{ :reseau:cloud:proxmox:ia_03.png |}}
 +
 +<WRAP center round info >
 +Ne plus installer le périphéirque **/dev/nvidia-modeset**
 +</WRAP>
  
   * Installez les drivers nvidia et la suite logicielle **cuda** dans le conteneur LXC (procédure semblable à celle de l'hote Proxmox).   * Installez les drivers nvidia et la suite logicielle **cuda** dans le conteneur LXC (procédure semblable à celle de l'hote Proxmox).
reseau/cloud/proxmox/lxcnvidia.1774873511.txt.gz · Dernière modification : 2026/03/30 14:25 de techer.charles_educ-valadon-limoges.fr