Différences

Ci-dessous, les différences entre deux révisions de la page.

--- reseau:cloud:proxmox:lxcnvidia [2026/01/14 15:30] – [Nvidia dans le Container LXC] techer.charles_educ-valadon-limoges.fr
+++ reseau:cloud:proxmox:lxcnvidia [2026/03/30 15:08] (Version actuelle) – [Nvidia dans le Container LXC] techer.charles_educ-valadon-limoges.fr
@@ Ligne 141: / Ligne 141: @@
 </code>
+  * Vérifier si Proxmox voit bien les deux GPU au niveau PCIe
+<code>
+# lspci | grep -i nvidia
+AF:00.0 NVIDIA Corporation TU104GL [Tesla T4]
+B0:00.0 NVIDIA Corporation TU104GL [Tesla T4]
+</code>
+  * vérifier que CUDA voit les deux cartes
+<code>
+# nvidia-smi -L
+GPU 0: Tesla T4 (UUID: GPU-e5bc6842-5aa8-b29e-aa13-922b15c893f9)
+GPU 1: Tesla T4 (UUID: GPU-6ac33a99-2cb8-eb7d-6097-f1c29e4d1e51)
+</code>
+  * Vérifier si le driver charge bien les deux GPU : il ne doit y avoir aucune erreur
+<code>
+# dmesg | grep -i nvidia
+Erreurs possibles :
+GPU has fallen off the bus
+PCIe error
+failed to initialize gpu
+RUNTIME_PM: error
+Unknown chipset
+NVRM: RmInitAdapter failed
+</code>
+  * Vérifier si le module UVM détecte les deux GPU
+<code>
+# cat /proc/driver/nvidia/gpus/*/information
+Il doit y avoir deux répertoires (0 et 1) :
+# nvidia-smi -q | grep -i "Compute Mode"
+    Compute Mode                                       : Default
+root@siohyp2:~# cat /proc/driver/nvidia/gpus/*/information
+Model:           Tesla T4
+IRQ:             44
+GPU UUID:        GPU-e5bc6842-5aa8-b29e-aa13-922b15c893f9
+Video BIOS:      90.04.b4.00.04
+Bus Type:        PCIe
+DMA Size:        47 bits
+DMA Mask:        0x7fffffffffff
+Bus Location:    0000:86:00.0
+Device Minor:    0
+GPU Firmware:    590.48.01
+GPU Excluded:    No
+Model:           Tesla T4
+IRQ:             46
+GPU UUID:        GPU-6ac33a99-2cb8-eb7d-6097-f1c29e4d1e51
+Video BIOS:      90.04.b4.00.04
+Bus Type:        PCIe
+DMA Size:        47 bits
+DMA Mask:        0x7fffffffffff
+Bus Location:    0000:af:00.0
+Device Minor:    1
+GPU Firmware:    590.48.01
+GPU Excluded:    No
+</code>
+Il y a deux cartes avec des adresses PCI différentes :
+  * GPU 0 → 0000:86:00.0
+  * GPU 1 → 0000:af:00.0
+  * lancer un benchmark PCIe / mémoire
+<code>
+# nvidia-smi topo -m
+        GPU0    GPU1    CPU Affinity    NUMA Affinity   GPU NUMA ID
+GPU0     X      NODE    24-35,72-83     2               N/A
+GPU1    NODE     X      24-35,72-83     2               N/A
+Legend:
+  X    = Self
+  SYS  = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI)
+  NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node
+  PHB  = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU)
+  PXB  = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge)
+  PIX  = Connection traversing at most a single PCIe bridge
+  NV#  = Connection traversing a bonded set of # NVLinks
+ </code>
+<code>
+# nvidia-smi -i 0
+Mon Mar 30 14:49:26 2026
++-----------------------------------------------------------------------------------------+
+| NVIDIA-SMI 595.58.03              Driver Version: 595.58.03      CUDA Version: 13.2     |
++-----------------------------------------+------------------------+----------------------+
+| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
+| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
+|                                         |                        |               MIG M. |
+|=========================================+========================+======================|
+|   0  Tesla T4                       Off |   00000000:86:00.0 Off |                    0 |
+| N/A   62C    P0             27W /   70W |       0MiB /  15360MiB |      4%      Default |
+|                                         |                        |                  N/A |
++-----------------------------------------+------------------------+----------------------+
++-----------------------------------------------------------------------------------------+
+| Processes:                                                                              |
+|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
+|        ID   ID                                                               Usage      |
+|=========================================================================================|
+|  No running processes found                                                             |
++-----------------------------------------------------------------------------------------+
+</code>
+  * charger le GPU 0
+<code>
+# nvidia-smi --query-gpu=utilization.gpu --format=csv --loop=1 -i 0
+</code>
+  * charger le GPU 1
+<code>
+# nvidia-smi --query-gpu=utilization.gpu --format=csv --loop=1 -i 1
+</code>
 ===== Nvidia dans le Container LXC =====
+  * mettre à jour le conteneur
+<code>
+apt update & apt upgrade
+</code>
   * Les conteneurs LXC n'ont pas besoin d'option particulière, ni besoin d'être privilégiés.
   * Configurer Le passthrough (GPU passthrough) dans Proxmox pour les GPU des carte NVidia.
@@ Ligne 152: / Ligne 278: @@
 </WRAP>
-    * ajoutez au conteneur LXC les périphériques passthrough
+  * ajoutez au conteneur LXC les périphériques passthrough
 {{ :reseau:cloud:proxmox:ia_01.png |}}
 {{ :reseau:cloud:proxmox:ia_02.png |}}
 {{ :reseau:cloud:proxmox:ia_03.png |}}
+<WRAP center round info >
+Ne plus installer le périphéirque **/dev/nvidia-modeset**
+</WRAP>
+  * Installez les drivers nvidia et la suite logicielle **cuda** dans le conteneur LXC (procédure semblable à celle de l'hote Proxmox).
+<code>
+wget https://developer.download.nvidia.com/compute/cuda/repos/debian13/x86_64/cuda-keyring_1.1-1_all.deb
+apt install ./cuda-keyring_1.1-1_all.deb
+apt update
+apt install cuda-toolkit
+apt install nvidia-driver-cuda
+</code>
+  * commande **nvdia-smi** pour confirmer que la carte est disponible et fonctionnelle sur votre container.
+<code>
+nvidia-smi
+</code>