Le combat pour le matériel de l’IA n’est plus gagné uniquement avec le muscle GPU. La mémoire est allée en première ligne et conditionne la stratégie des grands. Nvidia et AMD Ils affinent leur prochaine corne d’accélérateurs avec HBM4 Et, voici les pertinents, ils préparent des variantes adaptées à cette mémoire pour mieux serrer le flux de données et couper les latences.
HBM4 avec votre propre tampon
Selon un rapport publié par Semianalysis, les deux fabricants Ils développent HBM4 avec une fonctionnalité inhabituelle: Une puce de base conçue pour améliorer la logique et l’élévation des données. En un La batterie HBM conventionnelle, jusqu’à 12 matrices DRAM interconnectées par TSV (routes à travers le silicium) est empiléeet il y a la possibilité d’inclure une matrice de base avec des circuits logiques adaptés à des tâches spécifiques. Ce que NVIDIA et AMD prévoient, c’est Prenez cette option pour optimiser la communication interne et l’efficacité dans des charges très spécifiques, en particulier celles de l’IA.
L’idée est simple sur papier: si vous obtenez de la mémoire pour comprendre et gérer les données qu’elle gère mieux, vous pouvez réduire la latence et augmenter les performances sans toucher le GPU principal. Selon la publication, Cette pièce pourrait placer leurs accélérateurs un troisième avant toute tiers ASIC sur le marché actuel.
Un calendrier qui marque les distances
La différence clé non seulement la technologie, mais quand. Il pointe vers Nvidia et AMD auraient leurs listes d’implémentations HBM4 personnalisées En 2026tandis que d’autres fabricants (y compris des noms comme Mediatak) devraient Attendez jusqu’en 2027 pour lancer leurs versions avec une puce de base adaptée, et ils le feraient déjà HBM4E.
Dans le cas de Nvidia, cette nouvelle mémoire personnalisée fera ses débuts avec le Architecture « Rubin », appelé à surmonter de manière significative les performances « Blackwell » actuelles. Par AMD, la première arrivera avec La famille Instict Mi400conçu pour les déploiements à grande échelle, conçus à la fois pour l’entraînement des modèles et l’inférence à grande vitesse.
Pourquoi tout le monde ne peut pas le faire
La plupart des entreprises travaillant avec la mémoire HBM optent pour des configurations standard. Les prix sont très contrôlés par des fournisseurs tels que Samsung, Micron et SK Hynix, et le personnaliser ne devient pas toujours rentable. Mais Lorsque votre volume d’achat est aussi gigantesque que Nvidia ou AMD, les règles changent: Vous pouvez commander des versions avec des modifications spécifiques sans le coût par unité de prise de vue.
Dans ce cas, les personnalisations ne cherchent pas à ajouter une puissance de calcul directe dans Teraflops, mais à améliorer l’efficacité de gestion des données. Tout indique que ce sera Chips logiques qui optimisent le routage et la gestion des packages d’informationce qui pourrait réduire les goulots d’étranglement et rendre les opérations complètes plus rapidement.
L’impact sur l’IA: latence sous contrôle
L’un des points les plus critiques de l’inférence des modèles d’IA n’est pas seulement la capacité informatique brute, mais la latence. Si le chemin que les données entre la mémoire et le processeur sont plus courts et qu’il est mieux optimisé, les réponses sont générées auparavant. UN HBM « Smarter » pourrait signifier des améliorations de la performance à deux chiffres Mesuré en jetons par seconde, quelque chose qui, dans les environnements génératifs et le traitement en temps réel, fait une énorme différence.
Le plan est évident: se déplacer avant les autres, à la fois en innovation et en dates. Si Nvidia et AMD parviennent à matérialiser ce qu’ils ont sur la table, en 2026, une longueur d’avance sur tout rival dans les accélérateurs de l’IA pourrait être placé. Et dans un pays où chaque milliseconde marque les différences réelles, ce petit avantage peut devenir quelque chose de beaucoup plus grand qu’un bon nombre dans un tableau: il pourrait faire pencher l’équilibre et définir qui marquera le cours de la prochaine grande étape de l’intelligence artificielle.