Cartes graphiques les plus avancées de Nvidia, Geforce rtx 5090 et le RTX Pro 6000ils sont au centre d’un problème qui inquiète ceux qui travaillent avec des environnements virtualisés. Plusieurs utilisateurs ont détecté qu’après quelques jours d’utilisation intensive dans les machines virtuelles, les GPU deviennent complètement inopérants et ne peuvent récupérer qu’en redémarrant le système hôte.
L’origine du problème et son impact sur les utilisateurs
Le service de cloud computing de cloudrift a été le premier à avertir de l’erreur, notant des blocs récurrents dans leurs nœuds équipés de ces GPU. Selon vos tests, la panne apparaît lorsque la carte est affectée à une machine virtuelle à l’aide du contrôleur VFIO. Après avoir exécuté un Fonction de réinitialisation de niveau (FLR), le matériel cesse de répondre, ce qui provoque un bloc du noyau et traîne à la fois l’hôte et le client à un état de blocage total.
Compte tenu de ces circonstances, il est nécessaire de redémarrer la machine hôte pour restaurer l’opérabilité, un vrai problème dans l’infrastructure qui gère un grand nombre d’instances. Il convient de noter que la décision semble être limitée aux modèles RTX 5090 et RTX Pro 6000puisque d’autres GPU tels que RTX 4090, H100 ou Blackwell B200 ne montrent pas le même comportement.
De plus, le problème n’affecte pas seulement les fournisseurs de cloud. Dans les forums ProxMox, un utilisateur a décrit un bloc complet de l’hôte après avoir éteint une machine Windows virtuelle attribuée à un RTX 5090. Comme indiqué, NVIDIA a déjà reconnu en interne l’incidence et prétend travailler sur une solution après avoir pu reproduire l’erreur.
De l’argent pour ceux qui peuvent résoudre le problème
Dans l’intention de résoudre la situation, Cloudrift a lancé un Récompense de 1 000 $ À qui vous pouvez trouver un moyen d’atténuer ou de résoudre l’échec. Sans aucun doute, il s’agit d’une mesure désespérée mais nécessaire. Et c’est que les GPU affectés sont utilisés dans des environnements de développement critiques et des charges de travail d’intelligence artificielle qui nécessitent une haute disponibilité.
Pour l’instant, la communauté s’attend à un Mise à jour officielle de Nvidia qui clarifient la portée du problème et fournissent un patch définitif. Jusque-là, ceux qui dépendent de ces cartes dans les systèmes virtualisés doivent prendre des précautions, car la réinitialisation forcée continue d’être la seule sortie devant cet échec.