Physical Address

304 North Cardinal St.
Dorchester Center, MA 02124

Nvidia’s ‘AI Factory’ narrative faces reality check at Transform 2025


Rejoignez l’événement qui fait confiance aux chefs d’entreprise pendant près de deux décennies. VB Transform rassemble les gens qui construisent une véritable stratégie d’IA d’entreprise. Apprendre encore plus


Les gants se sont détachés Mardi à VB Transformer 2025 Comme les fabricants de puces alternatifs ont directement mis au défi le récit de domination de Nvidia lors d’un panel sur l’inférence, exposant une contradiction fondamentale: comment l’inférence de l’IA peut-elle être Une «usine» marchandée et commander des marges brutes à 70%?

Jonathan Ross, PDG de Glen’a pas haché les mots lorsqu’ils discutent de la messagerie soigneusement conçue de Nvidia. “L’usine d’IA n’est qu’un moyen marketing pour que l’IA sonne moins effrayante”, a déclaré Ross lors du panel. Sean Lie, CTO de Cerveauun concurrent, était tout aussi direct: “Je ne pense pas que Nvidia espionne d’avoir tous les prestataires de services qui se battent pour chaque dernier centime alors qu’ils sont assis là à l’aise avec 70 points.”

Des centaines de milliards d’investissement dans les infrastructures et la future architecture de l’IA d’entreprise sont en jeu. Pour les CISOS et les dirigeants de l’IA ont actuellement verrouillé les négociations hebdomadaires avec OpenAI et d’autres fournisseurs pour plus de capacité, le panel a exposé des vérités inconfortables sur les raisons pour lesquelles leurs initiatives d’IA continuent de frapper des barrages routiers.

>>Voir toute notre couverture Transform 2025 ici<<

La crise de la capacité dont personne ne parle

“Quiconque est réellement un grand utilisateur de ces modèles Gen AI sait que vous pouvez aller à Openai, ou à qui il est, et il ne pourra pas réellement vous servir suffisamment de jetons”, a expliqué Dylan Patel, fondateur de Semianalyse. Il y a des réunions hebdomadaires entre certains des plus grands utilisateurs de l’IA et leurs fournisseurs de modèles pour essayer de les persuader d’allouer plus de capacité. Ensuite, il y a des réunions hebdomadaires entre ces fournisseurs de modèles et leurs fournisseurs de matériel. »

Les participants au panel ont également souligné la pénurie de jetons comme exposant un défaut fondamental dans l’analogie de l’usine. La fabrication traditionnelle répond aux signaux de la demande en ajoutant une capacité. Cependant, lorsque les entreprises nécessitent 10 fois plus de capacité d’inférence, ils découvrent que la chaîne d’approvisionnement ne peut pas fléchir. Les GPU nécessitent des délais de deux ans. Les centres de données nécessitent des permis et des accords d’électricité. L’infrastructure n’a pas été conçue pour une mise à l’échelle exponentielle, forçant les fournisseurs à rationner l’accès via des limites de l’API.

Selon Patel, Anthropique Passé de 2 milliards de dollars à 3 milliards de dollars en ARR en seulement six mois. Curseur est passé de zéro essentiellement à 500 millions de dollars Arr. Openai traversé 10 milliards de dollars. Pourtant, les entreprises ne peuvent toujours pas obtenir les jetons dont ils ont besoin.

Pourquoi la pensée «usine» brise l’économie de l’IA

Jensen Huang’s «Usine d’IA»Le concept implique la normalisation, la marchandissement et les gains d’efficacité qui réduisent les coûts. Mais le panel a révélé trois façons fondamentales de cette métaphore décomposant:

Premièrement, l’inférence n’est pas uniforme. “Même aujourd’hui, pour l’inférence de, disons, Deepseek, il y a un certain nombre de prestataires le long de la courbe de la vitesse à laquelle ils fournissent à quel coût”, a noté Patel. Deepseek sert son propre modèle au plus bas coût, mais ne livre que 20 jetons par seconde seulement. “Personne ne veut utiliser un modèle à 20 jetons par seconde. Je parle plus vite que 20 jetons par seconde.”

Deuxièmement, la qualité varie sauvagement. Ross a établi un parallèle historique avec l’huile standard: «Lorsque l’huile standard a commencé, l’huile avait une qualité variable. Vous pouviez acheter de l’huile auprès d’un vendeur et cela pourrait mettre le feu à votre maison.» Le marché de l’inférence de l’IA d’aujourd’hui fait face à des variations de qualité similaires, les fournisseurs utilisant diverses techniques pour réduire les coûts qui compromettent par inadvertance la qualité de la production.

Troisièmement, et surtout, l’économie est inversée. “L’une des choses inhabituelles à propos de l’IA est que vous ne pouvez pas dépenser plus pour obtenir de meilleurs résultats”, a expliqué Ross. “Vous ne pouvez pas simplement avoir une application logicielle, disons, je vais dépenser deux fois plus pour héberger mon logiciel, et les applications peuvent s’améliorer.”

Lorsque Ross a mentionné que Mark Zuckerberg a salué le Groq pour être «les seuls à l’avoir lancé de toute la qualité», il a révélé par inadvertance la crise de qualité de l’industrie. Ce n’était pas seulement la reconnaissance. C’était un acte d’accusation de tous les autres fournisseurs qui coupent les coins.

Ross a expliqué la mécanique: «Beaucoup de gens font beaucoup de trucs pour réduire la qualité, pas intentionnellement, mais pour réduire leur coût, améliorer leur vitesse.» Les techniques semblent techniques, mais l’impact est simple. La quantification réduit la précision. L’élagage supprime les paramètres. Chaque optimisation dégrade les performances du modèle d’une manière que les entreprises peuvent ne pas détecter avant l’échec de la production.

Le ross parallèle à l’huile standard a dessiné illumine les enjeux. Le marché de l’inférence d’aujourd’hui fait face au même problème de variance de qualité. Les prestataires paris que les entreprises ne remarqueront pas la différence entre 95% et 100% de précision parient contre des entreprises comme Meta qui ont la sophistication pour mesurer la dégradation.

Cela crée des impératifs immédiats pour les acheteurs d’entreprises.

  1. Établir des repères de qualité avant de sélectionner les fournisseurs.
  2. Audit des partenaires d’inférence existants pour les optimisations non divulguées.
  3. Acceptez que la tarification premium pour la fidélité complète du modèle est désormais une fonctionnalité de marché permanente. L’ère d’assumer l’équivalence fonctionnelle à travers les fournisseurs d’inférence s’est terminée lorsque Zuckerberg a appelé la différence.

Le paradoxe de jeton de 1 million de dollars

Le moment le plus révélateur est venu lorsque le panel a discuté des prix. Le mensonge a mis en évidence une vérité inconfortable pour l’industrie: «Si ces millions de jetons sont aussi précieux que nous le pensons, non?

Cette observation coupe au cœur du problème de découverte des prix de l’IA. L’industrie est en cours pour entraîner des coûts de jetons inférieurs à 1,50 $ par million, tout en affirmant que ces jetons transforment tous les aspects de l’entreprise. Le panneau a implicitement convenu les uns avec les autres que les mathématiques ne s’additionnent pas.

“Presque tout le monde dépense, comme toutes ces startups à croissance rapide, le montant qu’ils dépensent en jetons en tant que service correspondent presque à leurs revenus un à un”, a révélé Ross. Ce ratio de dépenses 1: 1 sur les jetons d’IA contre les revenus représente un modèle commercial non durable que les participants au panel affirment que le récit «d’usine» ignore facilement.

Les performances changent tout

Cerebras et Groq ne sont pas seulement en concurrence sur le prix; Ils sont également en concurrence sur les performances. Ils changent fondamentalement ce qui est possible en termes de vitesse d’inférence. “Avec la technologie d’échelle de plaquette que nous avons construite, nous permnons 10 fois, parfois 50 fois, des performances plus rapides que les GPU les plus rapides aujourd’hui”, a déclaré Lie.

Ce n’est pas une amélioration progressive. Cela permet de nouveaux cas d’utilisation. «Nous avons des clients qui ont des flux de travail agentiques qui pourraient prendre 40 minutes, et ils veulent que ces choses fonctionnent en temps réel», a expliqué Lie. “Ces choses ne sont même pas possibles, même si vous êtes prêt à payer le meilleur dollar.”

Le différentiel de vitesse crée un marché bifurqué qui défie la normalisation de l’usine. Les entreprises nécessitant une inférence en temps réel pour les applications orientées client ne peuvent pas utiliser la même infrastructure que celles qui exécutent des processus de lot pendant la nuit.

Le vrai goulot d’étranglement: centres d’alimentation et de données

Alors que tout le monde se concentre sur la fourniture de puces, le panneau a révélé le déploiement réel de la contrainte sur les contraintes d’IA. “La capacité du centre de données est un gros problème. Vous ne pouvez pas vraiment trouver un espace de centre de données aux États-Unis”, a déclaré Patel. “Le pouvoir est un gros problème.”

Le défi d’infrastructure va au-delà de la fabrication des puces aux contraintes fondamentales des ressources. Comme l’a expliqué Patel, «TSMC à Taiwan est en mesure de gagner plus de 200 millions de dollars de jetons, non? Ce n’est même pas… c’est la vitesse à laquelle ils augmentent est ridicule.»

Mais la production de puces ne signifie rien sans infrastructure. “La raison pour laquelle nous voyons ces grands accords du Moyen-Orient, et en partie pourquoi ces deux sociétés ont de grandes présences au Moyen-Orient est, c’est le pouvoir”, a révélé Patel. La course mondiale pour le calcul a des entreprises «traverser le monde pour se rendre partout où la puissance existe, partout où la capacité du centre de données existe, partout où il y a des électriciens qui peuvent construire ces systèmes électriques.»

La “ catastrophe du succès ” de Google devient la réalité de tout le monde

Ross a partagé une anecdote révélatrice de l’histoire de Google: «Il y a eu un terme qui est devenu très populaire chez Google en 2015 appelé Success Disaster. Certaines équipes avaient construit des applications d’IA qui ont commencé à mieux fonctionner que les êtres humains pour la première fois, et la demande de calcul était si élevée, ils allaient devoir doubler ou tripler l’empreinte du centre de données mondiales.»

Ce modèle se répète désormais dans chaque déploiement d’IA d’entreprise. Les applications ne parviennent pas à gagner du terrain ou à connaître une croissance du bâton de hockey qui atteint immédiatement les limites d’infrastructure. Il n’y a pas de terrain d’entente, pas de courbe de mise à l’échelle lisse que l’économie d’usine prédiserait.

Ce que cela signifie pour la stratégie de l’IA d’entreprise

Pour les DSI, les CISO et les dirigeants de l’IA, les révélations du panel exigent un recalibrage stratégique:

La planification des capacités nécessite de nouveaux modèles. Les prévisions traditionnelles informatiques assument une croissance linéaire. Les charges de travail de l’IA rompent cette hypothèse. Lorsque les applications réussies augmentent la consommation de jetons de 30% par mois, les plans de capacité annuels deviennent obsolètes dans les trimestres. Les entreprises doivent passer des cycles d’approvisionnement statiques à la gestion des capacités dynamiques. Établir des contrats avec des dispositions en rafale. Surveillez l’utilisation hebdomadaire, pas trimestriellement. Acceptez que les modèles de mise à l’échelle de l’IA ressemblent à ceux des courbes d’adoption virale, et non des déploiements de logiciels d’entreprise traditionnels.

Les primes de vitesse sont permanentes. L’idée que l’inférence marchandisera à des prix uniformes ignore les écarts de performances massifs entre les fournisseurs. Les entreprises doivent budgétiser la vitesse là où cela compte.

L’architecture bat l’optimisation. Groq et Cerebras ne gagnent pas en faisant mieux les GPU. Ils gagnent en repensant l’architecture fondamentale de l’IA Calcul. Les entreprises qui parient tout sur les infrastructures basées sur GPU peuvent se retrouver coincées dans la voie lente.

L’infrastructure électrique est stratégique. La contrainte n’est pas des puces ou des logiciels mais des kilowatts et un refroidissement. Les entreprises intelligentes verrouillent déjà la capacité électrique et l’espace du centre de données pour 2026 et au-delà.

Les entreprises de la réalité des infrastructures ne peuvent pas ignorer

Le panel a révélé une vérité fondamentale: la métaphore de l’usine d’IA n’est pas seulement erronée, mais aussi dangereuse. Les entreprises de création de stratégies autour des prix d’inférence des produits de base et de livraison standardisée prévoient un marché qui n’existe pas.

Le véritable marché opère sur trois réalités brutales.

  1. La rareté de la capacité crée des inversions de puissance, où les fournisseurs dictent les termes et les entreprises mendient pour les allocations.
  2. La variance de qualité, la différence entre la précision de 95% et 100%, détermine si vos applications d’IA réussissent ou échouent catastrophiquement.
  3. Les contraintes d’infrastructure, et non la technologie, fixent les limites de liaison à la transformation de l’IA.

La voie à suivre pour les CISO et les dirigeants de l’IA nécessite d’abandonner complètement la pensée des usines. Verrouiller la capacité électrique maintenant. Audit des fournisseurs d’inférence pour la dégradation de la qualité cachée. Établir des relations avec les fournisseurs en fonction des avantages architecturaux, et non des économies de coûts marginales. Plus important encore, acceptez que payer 70% de marges pour une inférence fiable et de haute qualité puisse être votre investissement le plus intelligent.

Les fabricants de puces alternatifs de Transform ne se sont pas contentés de défier le récit de Nvidia. Ils ont révélé que les entreprises sont confrontées à un choix: payer la qualité et les performances, ou se joindre aux réunions hebdomadaires de négociation. Le consensus du panel était clair: le succès nécessite de faire correspondre les charges de travail spécifiques à une infrastructure appropriée plutôt que de poursuivre des solutions à une taille.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *