Outils pour utilisateurs

Outils du site


reseau:cloud:proxmox:lxcnvidia

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
reseau:cloud:proxmox:lxcnvidia [2026/03/30 10:00] – [SOLUTION OFFICIELLE POUR PROXMOX 9 + DEBIAN 13] techer.charles_educ-valadon-limoges.frreseau:cloud:proxmox:lxcnvidia [2026/03/30 15:08] (Version actuelle) – [Nvidia dans le Container LXC] techer.charles_educ-valadon-limoges.fr
Ligne 149: Ligne 149:
 AF:00.0 NVIDIA Corporation TU104GL [Tesla T4] AF:00.0 NVIDIA Corporation TU104GL [Tesla T4]
 B0:00.0 NVIDIA Corporation TU104GL [Tesla T4] B0:00.0 NVIDIA Corporation TU104GL [Tesla T4]
 +</code>
 +
 +  * vérifier que CUDA voit les deux cartes
 +
 +<code>
 +# nvidia-smi -L
 +GPU 0: Tesla T4 (UUID: GPU-e5bc6842-5aa8-b29e-aa13-922b15c893f9)
 +GPU 1: Tesla T4 (UUID: GPU-6ac33a99-2cb8-eb7d-6097-f1c29e4d1e51)
 </code> </code>
  
Ligne 200: Ligne 208:
   * GPU 1 → 0000:af:00.0    * GPU 1 → 0000:af:00.0 
  
-==== Problème Debian 13 + NVIDIA 590 pour les cartes Testla T4 ====+  * lancer un benchmark PCIe / mémoire
  
-Debian 13 (Trixie) est en version Testing, et utilise : +<code
-  * un kernel 6.7 / 6.8 / 6.17 selon build Proxmox +nvidia-smi topo -m 
-  * libdrm, libglvnd, libnvidia-ml plus récentes que Debian 12 +        GPU0    GPU1    CPU Affinity    NUMA Affinity   GPU NUMA ID 
-  * NVIDIA driver branche 590.xx (pas encore stabilisée multi-GPU) +GPU0          NODE    24-35,72-83                   N/A 
- +GPU1    NODE          24-35,72-83                   N/A
-Sous Debian 13 + kernel récent, on observe : +
-  * Le kernel NVIDIA voit les deux GPU =(/proc/driver/nvidia/gpus → OK) +
-  * NVML (bibliothèque utilisée par nvidia-smi) ne recense qu’un seul GPU +
-    * => nvidia-smi n’affiche qu’un GPU +
-    * => topo -m n’affiche qu’un GPU +
-    * => nvidia-smi -i 1 = No devices found+
  
-==== SOLUTION OFFICIELLE POUR PROXMOX 9 + DEBIAN 13 ====+Legend:
  
-  * Installer le driver nvidia-driver-550 +  X    = Self 
- +  SYS  = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI) 
-La branche 550 est compatible Debian 13 et ne souffre pas du bug NVML.+  NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node 
 +  PHB  = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU) 
 +  PXB  = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge) 
 +  PIX  = Connection traversing at most a single PCIe bridge 
 +  NV#  = Connection traversing a bonded set of # NVLinks 
 + </code>
  
 <code> <code>
-apt remove --purge -y nvidia-driver nvidia-dkms-* nvidia-kernel-common-* nvidia-kernel-source-* nvidia-utils-* libnvidia-ml-dev +nvidia-smi -i 0 
-# apt autoremove --purge -y +Mon Mar 30 14:49:26 2026        
-# reboot++-----------------------------------------------------------------------------------------+ 
 +| NVIDIA-SMI 595.58.03              Driver Version: 595.58.03      CUDA Version: 13.2     | 
 ++-----------------------------------------+------------------------+----------------------+ 
 +| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC | 
 +| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. | 
 +|                                                                |               MIG M. | 
 +|=========================================+========================+======================| 
 +|    Tesla T4                       Off |   00000000:86:00.0 Off |                    0 | 
 +| N/A   62C    P0             27W /   70W |       0MiB /  15360MiB |      4%      Default | 
 +|                                                                |                  N/A | 
 ++-----------------------------------------+------------------------+----------------------+
  
 ++-----------------------------------------------------------------------------------------+
 +| Processes:                                                                              |
 +|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
 +|        ID   ID                                                               Usage      |
 +|=========================================================================================|
 +|  No running processes found                                                             |
 ++-----------------------------------------------------------------------------------------+
 </code> </code>
  
-  * Puis :+  * charger le GPU 0
  
 <code> <code>
-apt install nvidia-driver-550 +nvidia-smi --query-gpu=utilization.gpu --format=csv --loop=1 -i 0
-reboot+
 </code> </code>
  
-  = driver stable, multi-GPU, compatible T4 / CUDA 12 / CUDA 13.+  * charger le GPU 1
  
 +<code>
 +# nvidia-smi --query-gpu=utilization.gpu --format=csv --loop=1 -i 1
 +</code>
 ===== Nvidia dans le Container LXC ===== ===== Nvidia dans le Container LXC =====
  
Ligne 257: Ligne 283:
 {{ :reseau:cloud:proxmox:ia_02.png |}} {{ :reseau:cloud:proxmox:ia_02.png |}}
 {{ :reseau:cloud:proxmox:ia_03.png |}} {{ :reseau:cloud:proxmox:ia_03.png |}}
 +
 +<WRAP center round info >
 +Ne plus installer le périphéirque **/dev/nvidia-modeset**
 +</WRAP>
  
   * Installez les drivers nvidia et la suite logicielle **cuda** dans le conteneur LXC (procédure semblable à celle de l'hote Proxmox).   * Installez les drivers nvidia et la suite logicielle **cuda** dans le conteneur LXC (procédure semblable à celle de l'hote Proxmox).
reseau/cloud/proxmox/lxcnvidia.1774857636.txt.gz · Dernière modification : 2026/03/30 10:00 de techer.charles_educ-valadon-limoges.fr