Les 7 puces qui composent la plateforme NVIDIA Vera Rubin sont déjà en production

NVIDIA a présenté au CGV 2026 la plateforme complète Véra Rubinun écosystème modulaire d’infrastructure de calcul haute performance pour l’IA qui intègre sept nouvelles puces, déjà en phase de productionpour le déploiement d’usines d’IA à grande échelle. Le système s’éloigne du schéma typique de serveur isolé pour se concentrer sur un supercalculateur au niveau du rack.

De cette manière, l’entreprise affirme avoir optimisé chaque phase du processus d’IA, de la pré-formation avec de grandes quantités de données à l’inférence en temps réel de systèmes d’IA agentique.

L’architecture combine le nouveau GPU Rubin et Processeurs Vera avec des progrès en matière d’interconnexion et de stockage spécifique à l’IA, tels que l’intégration de processeurs Groq3LPU et des systèmes de mise en cache de données dédiés. Grâce à une architecture modulaire MGX et plateforme de gestion de l’énergie DSXNVIDIA cherche à maximiser les performances par watt et la densité de calcul, permettant un déploiement d’infrastructure jusqu’à 30 % plus important dans les limites de puissance des centres de données actuels.

Ainsi, la plateforme est composée des systèmes ou « sous-plateformes » suivants :

NVIDIA Vera Rubin NVL72

La plateforme Véra Rubin NVL72 intègre 72 GPU Rubin et 36 CPU Vera connectés via NVLink 6ainsi que les SuperNIC ConnectX-9 et les DPU BlueField-4. Cette configuration vous permet d’entraîner des modèles mixtes d’experts (MoE) en utilisant un quart des GPU requis dans l’architecture Blackwell, atteignant jusqu’à 10 fois les performances d’inférence par watt. Le système s’adapte aux réseaux Ethernet Quantum-X800 InfiniBand et Spectrum-X pour optimiser l’utilisation dans les clusters GPU massifs.

Support de processeur NVIDIA Vera

Le support de Processeur NVIDIA Vera Il est conçu pour les charges de travail d’apprentissage par renforcement et d’IA agentique qui nécessitent des environnements basés sur CPU pour valider les résultats. Utiliser les infrastructures MGX refroidi par liquide et intègre 256 processeurs Vera, offrant des performances monothread qui dépassent de 50 % les processeurs traditionnels avec une efficacité énergétique double. La synchronisation dans l’usine d’IA est gérée via les réseaux Spectrum-X, établissant une base pour l’exécution d’outils agentiques à grande échelle.

Support NVIDIA Groq 3 LPX

Le support Groq 3 LPX Il intègre 256 processeurs LPU avec 128 Go de SRAM intégrée et une bande passante de 640 To/s. Conçu pour l’inférence à faible latence sur des modèles comportant des milliards de paramètres et des contextes comportant un million de jetons, ce système offre des performances jusqu’à 35 fois supérieures par mégawatt. Lorsqu’ils sont combinés aux GPU Rubin, les LPU accélèrent le processus de décodage en calculant conjointement chaque couche du modèle d’IA, optimisant ainsi la mémoire et l’efficacité informatique dans des conditions d’utilisation extrêmes.

Support de stockage NVIDIA BlueField-4 STX

Infrastructure de stockage BlueField-4 STX combine le processeur Vera avec le ConnectX-9 SuperNIC pour créer une couche partagée à large bande passante. Optimisé pour le cache KV généré par des modèles de langage étendus, utilise le framework Mémos DOCA pour traiter le stockage de manière dédiée. Cette conception augmente les performances d’inférence jusqu’à 5 fois et améliore l’efficacité énergétique par rapport aux architectures de stockage à usage général, facilitant ainsi les interactions multi-tours avec les agents d’IA.

Rack Ethernet NVIDIA Spectrum-6 SPX

Le système Spectre-6 SPX se concentre sur l’accélération du trafic est-ouest au sein des usines d’IA grâce à une connectivité à faible latence entre les racks. Prend en charge les configurations avec les commutateurs Spectrum-X Ethernet ou Quantum-X800 InfiniBand. La technologie photonique Ethernet avec optiques co-packagées atteint une efficacité de puissance optique jusqu’à 5 fois supérieure et une résilience 10 fois supérieure à celle des émetteurs-récepteurs enfichables classiques, optimisant ainsi la disponibilité du système sous des charges de travail continues de haute intensité.