Artificial Analysis révise son indice d’intelligence artificielle, en remplaçant les tests de référence populaires par des tests « du monde réel »



La course aux armements pour construire des modèles d’IA plus intelligents se heurte à un problème de mesure : les tests utilisés pour les classer deviennent obsolètes presque aussi vite que les modèles s’améliorent. Le lundi, Analyse artificielleune organisation indépendante d’analyse comparative de l’IA dont les classements sont étroitement surveillés par les développeurs et les acheteurs d’entreprises, a publié une refonte majeure de son Indice de renseignement cela change fondamentalement la façon dont l’industrie mesure les progrès de l’IA.

Le nouveau Indice de renseignement v4.0 intègre 10 évaluations couvrant les agents, le codage, le raisonnement scientifique et les connaissances générales. Mais les changements vont bien plus loin que le simple mélange des noms de tests. L’organisation a supprimé trois critères de base : MMLU-Pro, AIME 2025et LiveCodeBench – qui sont depuis longtemps cités par les sociétés d’IA dans leurs supports marketing. À la place, le nouvel indice introduit des évaluations conçues pour mesurer si les systèmes d’IA peuvent accomplir le type de travail pour lequel les gens sont réellement payés.

taper: entrée-intégrée-en-ligne identifiant: 1bCmRrroGCdUb07IuaHysL

"Ce changement d’indice reflète une transition plus large : l’intelligence est moins mesurée par le rappel et davantage par l’action économiquement utile," observé Aravind Sundarun chercheur qui a répondu à l’annonce sur X (anciennement Twitter).

Pourquoi les benchmarks IA échouent : le problème des tests que les top modèles maîtrisent déjà

La refonte des benchmarks répond à une crise croissante dans l’évaluation de l’IA : les principaux modèles sont devenus si performants que les tests traditionnels ne peuvent plus les différencier de manière significative. Le nouvel indice rend délibérément la courbe plus difficile à remonter. Selon Analyse artificielleles modèles haut de gamme obtiennent désormais un score de 50 ou moins sur la nouvelle échelle v4.0, contre 73 sur la version précédente – un recalibrage conçu pour restaurer la marge pour des améliorations futures.

Ce problème de saturation tourmente l’industrie depuis des mois. Lorsque chaque modèle frontière obtient un score dans le 90e centile à un test donné, le test perd son utilité en tant qu’outil de prise de décision pour les entreprises qui tentent de choisir le système d’IA à déployer. La nouvelle méthodologie tente de résoudre ce problème en pondérant de manière égale quatre catégories : Agents, Codage, Raisonnement scientifique et Général, tout en introduisant des évaluations là où même les systèmes les plus avancés ont encore des difficultés.

Les résultats obtenus dans le cadre du nouveau cadre montrent l’efficacité d’OpenAI GPT-5.2 avec un effort de raisonnement prolongé revendiquant la première place, suivi de près par Anthropic Fermer le travail 4.5 et celui de Google Gémeaux 3 Pro. OpenAI décrit GPT-5.2 comme "la série de modèles la plus performante à ce jour pour le travail de connaissances professionnelles," tandis que Claude Opus 4.5 d’Anthropic obtient des scores supérieurs à GPT-5.2 sur SWE-Bench vérifiéun ensemble de tests évaluant les capacités de codage des logiciels.

GDPval-AA : le nouveau benchmark testant si l’IA peut faire votre travail

L’ajout le plus important au nouvel indice est GDPval-AAune évaluation basée sur OpenAI Ensemble de données GDPval qui teste des modèles d’IA sur des tâches réelles à valeur économique dans 44 professions et 9 industries majeures. Contrairement aux tests de référence traditionnels qui demandent aux modèles de résoudre des problèmes mathématiques abstraits ou de répondre à des questions à choix multiples, GDPval-AA mesure si l’IA peut produire les livrables que les professionnels créent réellement : documents, diapositives, diagrammes, feuilles de calcul et contenu multimédia.

Les modèles reçoivent un accès au shell et des capacités de navigation Web via ce que l’analyse artificielle appelle "Étrier," son harnais agent de référence. Les scores sont dérivés de comparaisons aveugles par paires, les notes ELO étant gelées au moment de l’évaluation pour garantir la stabilité de l’indice.

Dans ce cadre, le GPT-5.2 d’OpenAI avec raisonnement étendu est en tête avec un score ELO de 1 442, tandis que la variante non pensante Claude Opus 4.5 d’Anthropic suit à 1 403. Claude Sonnet 4.5 est à 1 259.

Lors de l’évaluation originale de GDPval, GPT-5.2 a battu ou égalé les meilleurs professionnels du secteur sur 70,9 % de tâches bien spécifiées, selon OpenAI. La société réclamations GPT-5.2 "surpasse les professionnels de l’industrie dans des tâches de travail fondées sur les connaissances bien spécifiées couvrant 44 professions," avec des entreprises telles que Notion, Box, Shopify, Harvey et Zoom observant "Raisonnement à long horizon et performances d’appel d’outils de pointe."

L’accent mis sur une production économiquement mesurable constitue un changement philosophique dans la façon dont l’industrie envisage les capacités de l’IA. Plutôt que de se demander si un modèle peut réussir un examen du barreau ou résoudre des problèmes mathématiques de compétition – des réalisations qui font la une des journaux mais ne se traduisent pas nécessairement en productivité sur le lieu de travail – les nouveaux critères se demandent si l’IA peut réellement faire le travail.

Les problèmes de physique au niveau universitaire révèlent les limites des modèles d’IA les plus avancés d’aujourd’hui

Alors que GDPval-AA mesure la productivité pratique, une autre nouvelle évaluation appelée CritiquePT révèle à quel point les systèmes d’IA restent éloignés du véritable raisonnement scientifique. Le benchmark teste des modèles de langage sur des tâches de raisonnement non publiées au niveau de la recherche dans le domaine de la physique moderne, notamment la matière condensée, la physique quantique et l’astrophysique.

CritiquePT a été développé par plus de 50 chercheurs en physique actifs provenant de plus de 30 institutions de premier plan. Ses 71 défis de recherche composites simulent des projets de recherche à grande échelle au niveau d’entrée – comparables aux exercices d’échauffement qu’un chercheur principal pratique pourrait confier aux étudiants des cycles supérieurs. Chaque problème est sélectionné à la main pour produire une réponse résistante aux devinettes et vérifiable par machine.

Les résultats donnent à réfléchir. Les modèles de pointe actuels sont loin de résoudre de manière fiable les défis de la recherche à grande échelle. GPT-5.2 avec un raisonnement étendu mène le Classement CritPT avec un score de seulement 11,5 %, suivi par Gemini 3 Pro Preview de Google et la variante Claude 4.5 Opus Thinking d’Anthropic. Ces scores suggèrent que malgré des progrès remarquables dans les tâches destinées aux consommateurs, les systèmes d’IA ont encore du mal à maîtriser le type de raisonnement approfondi requis pour la découverte scientifique.

Taux d’hallucinations de l’IA : pourquoi les modèles les plus précis ne sont pas toujours les plus fiables

La nouvelle évaluation la plus révélatrice est peut-être AA-Omnisciencequi mesure le rappel factuel et les hallucinations à travers 6 000 questions couvrant 42 sujets économiquement pertinents dans six domaines : affaires, santé, droit, génie logiciel, sciences humaines et sociales, et sciences/ingénierie/mathématiques.

L’évaluation produit un Indice omniscientifique qui récompense les connaissances précises tout en pénalisant les réponses hallucinées – ce qui permet de déterminer si un modèle peut distinguer ce qu’il sait de ce qu’il ne sait pas. Les résultats révèlent une vérité inconfortable : une grande précision ne garantit pas une faible hallucination. Les modèles les plus précis ne parviennent souvent pas à être en tête de l’indice Omniscience car ils ont tendance à deviner plutôt qu’à s’abstenir en cas d’incertitude.

Google Aperçu de Gemini 3 Pro est en tête de l’Omniscience Index avec un score de 13, suivi de Claude Opus 4.5 Thinking et Gemini 3 Flash Reasoning, tous deux à 10. Cependant, la répartition entre précision et taux d’hallucinations révèle une image plus complexe.

En termes de précision brute, les deux modèles de Google sont en tête avec des scores de 54 % et 51 % respectivement, suivis par Claude 4.5 Opus Penser à 43%. Mais les modèles de Google affichent également des taux d’hallucinations plus élevés que les modèles homologues, avec des scores de 88 % et 85 %. Claude 4.5 Sonnet Thinking et Claude Opus 4.5 Thinking d’Anthropic affichent des taux d’hallucinations de 48 % et 58 % respectivement, tandis que GPT-5.1, avec un effort de raisonnement élevé, atteint 51 %, soit le deuxième taux d’hallucinations le plus bas testé.

La précision de l’Omniscience et le taux d’hallucinations contribuent chacun à hauteur de 6,25 % à l’indice d’intelligence global v4.

Dans la course aux armements de l’IA : comment OpenAI, Google et Anthropic se comparent aux nouveaux tests

Le remaniement des références arrive à un moment particulièrement mouvementé dans l’industrie de l’IA. Les trois principaux développeurs de modèles pionniers ont lancé de nouveaux modèles majeurs en quelques semaines seulement – ​​et Gémeaux 3 occupe toujours la première place dans la plupart des classements sur LMAun outil d’analyse comparative largement cité utilisé pour comparer les LLM.

La sortie de Gemini 3 par Google en novembre a été incitée OpenAI pour déclarer un "code rouge" effort pour améliorer ChatGPT. OpenAI compte sur sa famille de modèles GPT pour justifier son Valorisation de 500 milliards de dollars et plus 1 400 milliards de dollars de dépenses prévues. "Nous avons annoncé ce code rouge pour réellement signaler à l’entreprise que nous souhaitons mobiliser des ressources dans un domaine particulier," a déclaré Fidji Simo, PDG des applications chez OpenAI. Altman a déclaré à CNBC il s’attendait à ce qu’OpenAI sorte de son code rouge d’ici janvier.

Anthropic a répondu avec Claude Opus 4.5 le 24 novembre, réalisant un SWE-Bench vérifié score de précision de 80,9 % — récupérant la couronne de codage des deux GPT-5.1-Codex-Max et Gémeaux 3. Ce lancement marque la troisième sortie majeure d’un modèle Anthropic en deux mois. Microsoft et Nvidia ont depuis annoncé des investissements de plusieurs milliards de dollars dans Anthropic, augmentant ainsi sa valorisation à environ 350 milliards de dollars.

Comment l’analyse artificielle teste les modèles d’IA : un aperçu du processus d’analyse comparative indépendante

Analyse artificielle souligne que toutes les évaluations sont menées de manière indépendante en utilisant une méthodologie standardisée. L’organisation déclare que son "la méthodologie met l’accent sur l’équité et l’applicabilité dans le monde réel," estimation d’un intervalle de confiance à 95 % pour l’indice d’intelligence inférieur à ± 1 % sur la base d’expériences avec plus de 10 répétitions sur certains modèles.

L’organisation a publié méthodologie définit les termes clés que les acheteurs d’entreprise doivent comprendre. Selon la documentation méthodologique, l’Analyse Artificielle considère un "point final" être une instance hébergée d’un modèle accessible via une API, ce qui signifie qu’un seul modèle peut avoir plusieurs points de terminaison chez différents fournisseurs. UN "fournisseur" est une entreprise qui héberge et donne accès à un ou plusieurs points de terminaison ou systèmes modèles. De manière critique, l’analyse artificielle fait la distinction entre "poids ouverts" modèles, dont les pondérations ont été publiées publiquement, et des modèles véritablement open source, à noter que de nombreux LLM ouverts ont été publiés avec des licences qui ne répondent pas à la définition complète d’un logiciel open source.

La méthodologie clarifie également la manière dont l’organisation standardise la mesure des jetons : elle utilise les jetons OpenAI tels que mesurés avec le package tiktoken d’OpenAI comme unité standard pour tous les fournisseurs afin de permettre des comparaisons équitables.

Ce que le nouvel AI Intelligence Index signifie pour les décisions technologiques des entreprises en 2026

Pour les décideurs techniques évaluant les systèmes d’IA, le Indice de renseignement v4.0 fournit une image plus nuancée des capacités que les compilations de référence précédentes. La pondération égale entre les agents, le codage, le raisonnement scientifique et les connaissances générales signifie que les entreprises ayant des cas d’utilisation spécifiques peuvent souhaiter examiner les scores spécifiques à une catégorie plutôt que de s’appuyer uniquement sur l’indice global.

L’introduction de la mesure des hallucinations en tant que facteur distinct et pondéré répond à l’une des préoccupations les plus persistantes concernant l’adoption de l’IA en entreprise. Un modèle qui semble très précis mais qui hallucine fréquemment lorsqu’il est incertain présente des risques importants dans les secteurs réglementés comme la santé, la finance et le droit.

L’indice d’intelligence d’analyse artificielle est décrit comme "une suite d’évaluation de la langue anglaise sous forme de texte uniquement." L’organisation évalue séparément les modèles pour les entrées d’images, les entrées vocales et les performances multilingues.

La réponse à cette annonce a été largement positive. "C’est formidable de voir l’indice évoluer pour réduire la saturation et se concentrer davantage sur la performance agentique," a écrit un commentateur dans un Article X.com. "L’inclusion de tâches du monde réel telles que GDPval-AA rend les scores beaucoup plus pertinents pour une utilisation pratique."

D’autres ont adopté une note plus ambitieuse. "La nouvelle vague de modèles qui est sur le point d’arriver les laissera tous derrière," » a prédit un observateur. "D’ici la fin de l’année, la singularité sera indéniable."

Mais que cette prédiction se révèle prophétique ou prématurée, une chose est déjà claire : l’ère où l’on jugeait l’IA en fonction de ses réponses aux questions des tests touche à sa fin. La nouvelle norme est plus simple et bien plus conséquente : peut-elle faire le travail ?



Source link

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *