Nvidia vient d’admettre que l’ère des GPU à usage général touche à sa fin



L’accord de licence stratégique de 20 milliards de dollars entre Nvidia et Groq représente l’une des premières avancées claires dans une lutte sur quatre fronts pour la future pile d’IA. C’est en 2026 que ce combat deviendra une évidence pour les créateurs d’entreprises.

Pour les décideurs techniques avec lesquels nous parlons quotidiennement – ​​les personnes qui créent les applications d’IA et les pipelines de données qui les pilotent – ​​cet accord est le signal que l’ère du GPU unique comme réponse par défaut à l’inférence d’IA touche à sa fin.

Nous entrons dans l’ère du architecture d’inférence désagrégéeoù le silicium lui-même est divisé en deux types différents pour s’adapter à un monde qui exige à la fois un contexte massif et un raisonnement instantané.

Pourquoi l’inférence brise l’architecture GPU en deux

Pour comprendre pourquoi le PDG de Nvidia, Jensen Huang, a abandonné un tiers de son a déclaré une pile de liquidités de 60 milliards de dollars sur un accord de licence, il faut regarder les menaces existentielles qui convergent vers les informations rapportées par son entreprise. 92% de part de marché.

L’industrie a atteint un point critique fin 2025 : pour la première fois, l’inférence – la phase au cours de laquelle les modèles formés s’exécutent réellement – a dépassé la formation en termes de revenus totaux du centre de donnéesselon Deloitte. Dans ce nouveau "Inférence Flip," les mesures ont changé. Si la précision reste la référence, la bataille se livre désormais sur la latence et la capacité à maintenir "État" chez les agents autonomes.

Il y a quatre fronts dans cette bataille, et chacun d’entre eux mène à la même conclusion : les charges de travail d’inférence se fragmentent plus rapidement que les GPU ne peuvent généraliser.

1. Briser le GPU en deux : pré-remplissage ou décodage

Gavin Baker, un investisseur dans Groq (et donc partial, mais aussi exceptionnellement compétent en matière d’architecture), résumé le principal moteur de l’accord Groq : “L’inférence se désagrège en pré-remplissage et décodage.”

Préremplir et décoder se déroulent en deux phases distinctes :

  • La phase de pré-remplissage : Considérez cela comme celui de l’utilisateur "rapide" scène. Le modèle doit ingérer d’énormes quantités de données, qu’il s’agisse d’une base de code de 100 000 lignes ou d’une heure de vidéo, et calculer une compréhension contextuelle. C’est "lié au calcul," nécessitant une multiplication matricielle massive pour laquelle les GPU de Nvidia sont historiquement excellents.

  • La phase de génération (décodage) : C’est le véritable jeton par jeton "génération.” Une fois l’invite ingérée, le modèle génère un mot (ou un jeton) à la fois, réinjectant chacun dans le système pour prédire le suivant. C’est "limite de bande passante mémoire." Si les données ne peuvent pas passer assez rapidement de la mémoire au processeur, le modèle bégaie, quelle que soit la puissance du GPU. (C’est là que Nvidia était faible, et là où l’unité de traitement de langage spécial (LPU) de Groq et sa mémoire SRAM associée brillent. Plus d’informations à ce sujet dans un instant.)

Nvidia a a annoncé un prochain Véra Rubin famille de chips qu’il s’agit d’une architecture spécifiquement conçue pour gérer cette scission. Le Rubin CPX composante de cette famille est la personne désignée "préremplir" cheval de bataille, optimisé pour les fenêtres de contexte massives de 1 million de jetons ou plus. Pour gérer cette échelle à un prix abordable, il faut s’éloigner des dépenses exorbitantes de mémoire à large bande passante (HBM) – La mémoire de référence actuelle de Nvidia qui se trouve juste à côté de la puce GPU – et utilise à la place 128 Go d’un nouveau type de mémoire, GDDR7. Bien que HBM offre une vitesse extrême (mais pas aussi rapide que la mémoire vive statique (SRAM) de Groq), son offre en GPU est limitée et son coût constitue un obstacle à l’échelle ; GDDR7 offre un moyen plus rentable d’ingérer des ensembles de données massifs.

Pendant ce temps, le "Au goût de Groq" le silicium, que Nvidia intègre dans sa feuille de route d’inférence, servira de réseau à grande vitesse "décoder" moteur. Il s’agit de neutraliser une menace provenant d’architectures alternatives comme les TPU de Google et de maintenir la domination de CUDA, L’écosystème logiciel de Nvidia qui constitue son principal bastion depuis plus d’une décennie.

Tout cela a suffi à Baker, l’investisseur de Groq, pour prédire que la décision de Nvidia d’obtenir une licence pour Groq entraînerait l’annulation de toutes les autres puces spécialisées en IA, c’est-à-dire en dehors du TPU de Google, de l’AI5 de Tesla et du Trainium d’AWS.

2. La puissance différenciée de la SRAM

Au cœur de la technologie de Groq se trouve SRAM. Contrairement à la DRAM trouvée dans votre PC ou au HBM sur un GPU Nvidia H100, la SRAM est gravée directement dans la logique du processeur.

Michael Stewart, associé directeur du fonds de capital-risque de Microsoft, M12, décrit la SRAM comme la meilleure solution pour déplacer des données sur de courtes distances avec un minimum d’énergie. "L’énergie pour bouger un peu dans SRAM est de 0,1 picojoule ou moins," » dit Stewart. "Le déplacer entre la DRAM et le processeur est plutôt 20 à 100 fois pire."

Dans le monde de 2026, où les agents doivent raisonner en temps réel, SRAM constitue l’ultime "bloc-notes": un espace de travail à grande vitesse où le modèle peut manipuler des opérations symboliques et des processus de raisonnement complexes sans "cycles gaspillés" de navette de mémoire externe.

Cependant, la SRAM présente un inconvénient majeur : elle est physiquement encombrante et coûteuse à fabriquer, ce qui signifie que sa capacité est limitée par rapport à la DRAM. C’est là que Val Bercovici, directeur de l’IA chez Weka, une autre société proposant de la mémoire pour les GPU, voit la segmentation du marché.

Les charges de travail d’IA compatibles avec Groq – pour lesquelles SRAM a l’avantage – sont celles qui utilisent de petits modèles de 8 milliards de paramètres et moins, a déclaré Bercovici. Ce n’est cependant pas un petit marché. “Il s’agit simplement d’un segment de marché géant qui n’était pas servi par Nvidia, à savoir l’inférence de périphérie, la faible latence, la robotique, la voix, les appareils IoT – des choses que nous voulons exécuter sur nos téléphones sans le cloud pour des raisons de commodité, de performances ou de confidentialité." dit-il.

Ce 8B "point idéal" est significatif car 2025 a vu une explosion modèle de distillationoù se trouvent de nombreuses entreprises réduire les modèles massifs en versions plus petites très efficaces. Bien que la SRAM ne soit pas pratique pour le paramètre mille milliards "frontière" modèles, il est parfait pour ces modèles plus petits et à grande vitesse.

3. La menace anthropique : l’essor de la « pile portable »

Le facteur le plus sous-estimé de cet accord est peut-être le succès d’Anthropic à rendre sa pile portable sur tous les accélérateurs.

L’entreprise a a été le pionnier d’une approche d’ingénierie portable pour la formation et l’inférence – essentiellement une couche logicielle qui permet à ses modèles Claude de s’exécuter sur plusieurs familles d’accélérateurs d’IA – y compris les GPU et les GPU de Nvidia. Les TPU Ironwood de Google. Jusqu’à récemment, la domination de Nvidia était protégée car exécuter des modèles hautes performances en dehors de la pile Nvidia était un cauchemar technique. «C’est anthropique», m’a dit Bercovici de Weka. “Le fait qu’Anthropic ait pu… créer une pile logicielle capable de fonctionner aussi bien sur les TPU que sur les GPU, je ne pense pas que cela soit suffisamment apprécié sur le marché.”

(Divulgation : Weka a été sponsor des événements VentureBeat.)

Anthropic s’est récemment engagé à accéder à 1 million de TPU de Google, représentant plus d’un gigawatt de capacité de calcul. Cette approche multiplateforme garantit que l’entreprise n’est pas prise en otage par les contraintes de prix ou d’approvisionnement de Nvidia. Ainsi, pour Nvidia, l’accord Groq est également une mesure défensive. En intégrant l’IP d’inférence ultra-rapide de Groq, Nvidia s’assure que les charges de travail les plus sensibles aux performances – comme celles exécutant de petits modèles ou faisant partie d’agents en temps réel – peuvent être hébergées dans l’écosystème CUDA de Nvidia, même si les concurrents tentent de passer aux TPU Ironwood de Google. CUDA est le logiciel spécial que Nvidia propose aux développeurs pour intégrer les GPU.

4. La guerre agentique des « États » : Manus et le KV Cache

Le timing de cet accord avec Groq coïncide avec Acquisition par Meta du pionnier des agents Manus il y a à peine deux jours. L’importance de Manus était en partie son obsession pour état d’état.

Si un agent ne se souvient pas de ce qu’il a fait il y a 10 étapes, cela est inutile pour des tâches réelles comme des études de marché ou le développement de logiciels. Cache KV (Cache clé-valeur) est le "mémoire à court terme" qu’un LLM construit pendant la phase de pré-remplissage.

Manus signalé celui des agents de production, le rapport entre les jetons d’entrée et les jetons de sortie peut atteindre 100 : 1. Cela signifie que pour chaque mot prononcé par un agent, c’est "pensée" et "se souvenir" 100 autres. Dans cet environnement, le taux de réussite du KV Cache est la mesure la plus importante pour un agent de production, a déclaré Manus. Si ce cache est "expulsé" de mémoire, l’agent perd le fil de ses pensées et le modèle doit dépenser énormément d’énergie pour recalculer l’invite.

La SRAM de Groq peut être un "bloc-notes" pour ces agents – bien que, encore une fois, principalement pour des modèles plus petits – car il permet la récupération quasi instantanée de cet état. Combiné avec de Nvidia Dynamo cadre et le KVBM, Nvidia construit un "système d’exploitation d’inférence" qui peut hiérarchiser cet état entre SRAM, DRAM et d’autres offres basées sur flash comme celle de Weka de Bercovici.

Thomas Jorgensen, directeur principal de l’activation technologique chez Supermicro, spécialisé dans la création de clusters de GPU pour les grandes entreprises, m’a déclaré en septembre que le calcul n’était plus le principal goulot d’étranglement pour les clusters avancés. L’alimentation des données vers les GPU constituait le goulot d’étranglement, et résoudre ce goulot d’étranglement nécessite de la mémoire.

"L’ensemble du cluster est désormais l’ordinateur," » dit Jorgensen. "La mise en réseau devient une partie interne de la bête… nourrir la bête avec des données devient de plus en plus difficile car la bande passante entre les GPU augmente plus rapidement que toute autre chose."

C’est pourquoi Nvidia s’oriente vers l’inférence désagrégée. En séparant les charges de travail, les applications d’entreprise peuvent utiliser des niveaux de stockage spécialisés pour alimenter les données avec des performances de classe mémoire, tandis que les niveaux de stockage spécialisés "Groq-à l’intérieur" le silicium gère la génération de jetons à grande vitesse.

Le verdict pour 2026

Nous entrons dans une ère de spécialisation extrême. Pendant des décennies, les opérateurs historiques ont pu gagner en proposant une architecture dominante à usage général – et leur angle mort était souvent ce qu’ils ignoraient en marge. La longue négligence d’Intel en matière de faible consommation en est l’exemple classique, m’a dit Michael Stewart, associé directeur du fonds de capital-risque M12 de Microsoft. Nvidia signale qu’il ne répétera pas cette erreur. “Si même le leader, même le lion de la jungle, acquiert des talents, acquiert de la technologie, c’est le signe que l’ensemble du marché veut simplement plus d’options”, a déclaré Stewart.

Pour les responsables techniques, le message est de arrêtez de concevoir votre pile comme s’il s’agissait d’un rack, d’un accélérateur, d’une réponse. En 2026, l’avantage ira aux équipes qui étiquetent explicitement les charges de travail et les acheminent vers le bon niveau :

  • lourd en pré-remplissage ou lourd en décodage

  • contexte long vs contexte court

  • interactif vs batch

  • petit modèle vs grand modèle

  • contraintes de périphérie par rapport aux hypothèses du centre de données

Votre architecture suivra ces étiquettes. En 2026, la « stratégie GPU » cesse d’être une décision d’achat et devient une décision de routage. Les gagnants ne demanderont pas quelle puce ils ont achetée – ils demanderont où chaque jeton a été exécuté et pourquoi.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *