Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Rejoignez l’événement qui fait confiance aux chefs d’entreprise pendant près de deux décennies. VB Transform rassemble les gens qui construisent une véritable stratégie d’IA d’entreprise. Apprendre encore plus
Anthropique Le PDG Dario Amodei a fait un poussée urgente en avril pour la nécessité de comprendre comment les modèles d’IA pensent.
Cela vient à un moment crucial. Comme anthropique batailles Dans le classement mondial de l’IA, il est important de noter ce qui le distingue des autres laboratoires de l’IA. Depuis sa fondation en 2021, quand sept Openai employés interrompu Sur les préoccupations concernant la sécurité de l’IA, Anthropic a construit des modèles d’IA qui adhèrent à un ensemble de principes à valeur humaine, un système qu’ils appellent IA constitutionnel. Ces principes garantissent que les modèles sont «utile, honnête et inoffensif“Et agissent généralement dans le meilleur intérêt de la société. En même temps, le bras de recherche d’Anthropic est plongée profonde pour comprendre comment ses modèles pensent du monde, et pourquoi Ils produisent des réponses utiles (et parfois nocives).
Modèle phare d’Anthropic, Claude 3.7 Sonnet, dominé codage des repères lors de son lancement en février, prouvant que les modèles d’IA peuvent exceller à la fois aux performances et à la sécurité. Et la récente sortie de Claude 4.0 Opus et Sonnet met à nouveau Claude au Benchmarks de codage. Cependant, sur le marché d’IA rapide et hyper-compétitif d’aujourd’hui, les rivaux d’Anthropic comme Google’s Gemini 2.5 Pro et l’O3 de l’AI ont leurs propres projections impressionnantes pour le codage des prouesses, alors qu’ils sont déjà dominant Claude en mathématiques, écriture créative et raisonnement global dans de nombreuses langues.
Si les pensées d’Amodei sont une indication, Anthropic planifie l’avenir de l’IA et ses implications dans des domaines critiques comme la médecine, la psychologie et le droit, où la sécurité des modèles et les valeurs humaines sont impératives. Et cela montre: Anthropic est le principal laboratoire d’IA qui se concentre strictement sur le développement de l’IA «interprétable», qui sont des modèles qui nous permettent, à un certain degré de certitude, ce que le modèle pense et comment il arrive à une conclusion particulière.
Amazon et Google ont déjà investi des milliards de dollars dans anthropic même s’ils construisent leurs propres modèles d’IA, donc peut-être l’avantage concurrentiel d’Anthropic est toujours en herbe. Les modèles interprétables, comme le suggèrent anthropic, pourraient réduire considérablement les coûts opérationnels à long terme associés au débogage, à l’audit et à l’atténuation des risques dans les déploiements d’IA complexes.
Saysh Kapoorun chercheur en sécurité de l’IA, suggère que si l’interprétabilité est précieuse, ce n’est qu’un des nombreux outils pour gérer les risques d’IA. À son avis, «l’interprétabilité n’est ni nécessaire ni suffisante» pour s’assurer que les modèles se comportent en toute sécurité – il est le plus important lorsqu’il est associé à des filtres, aux vérificateurs et à la conception centrée sur l’homme. Cette vision plus expansive considère l’interprétabilité comme faisant partie d’un plus grand écosystème de stratégies de contrôle, en particulier dans les déploiements d’IA du monde réel où les modèles sont des composants dans des systèmes de prise de décision plus larges.
Jusqu’à récemment, beaucoup pensaient que l’IA était encore des années à partir d’avancées comme celles qui aident maintenant Claude, Gemini et Chatgpt se vanter Adoption exceptionnelle du marché. Alors que ces modèles sont déjà Pousser les frontières de la connaissance humaineleur utilisation généralisée est attribuable à la façon dont ils sont bons pour résoudre un large éventail de problèmes pratiques qui nécessitent une résolution créative de problèmes ou une analyse détaillée. Comme les modèles sont mis à la tâche sur des problèmes de plus en plus critiques, il est important qu’ils produisent des réponses précises.
Amodei craint que lorsqu’une IA répond à une invite: «Nous n’avons aucune idée… pourquoi cela choisit certains mots par rapport aux autres, ou pourquoi cela fait parfois une erreur malgré le fait d’être exact.» De telles erreurs – des hallucinations d’informations inexactes, ou des réponses qui ne s’alignent pas sur les valeurs humaines – empêcheront les modèles d’IA d’atteindre leur plein potentiel. En effet, nous avons vu de nombreux exemples d’IA qui continuent de lutter hallucinations et comportement contraire à l’éthique.
Pour Amodei, la meilleure façon de résoudre ces problèmes est de comprendre comment une IA pense: «Notre incapacité à comprendre les mécanismes internes des modèles signifie que nous ne pouvons pas prédire de manière significative [harmful] Des comportements, et donc du mal à les exclure… s’il était possible de regarder à l’intérieur des modèles, nous pourrions être en mesure de bloquer systématiquement tous les jailbreaks, et de caractériser également les connaissances dangereuses des modèles. »
Amodei considère également l’opacité des modèles actuels comme un obstacle au déploiement de modèles d’IA dans des «paramètres financiers ou critiques à enjeux élevés ou à la sécurité, car nous ne pouvons pas fixer entièrement les limites de leur comportement, et un petit nombre d’erreurs pourraient être très nocives.» Dans la prise de décision qui affecte directement les humains, comme le diagnostic médical ou les évaluations hypothécaires, règlements exiger l’IA pour expliquer ses décisions.
Imaginez une institution financière utilisant un modèle de langue large (LLM) pour la détection de la fraude – l’interprétabilité pourrait signifier expliquer une demande de prêt refusée à un client, comme l’exige la loi. Ou une entreprise de fabrication optimisant les chaînes d’approvisionnement – comprendre pourquoi une IA suggère qu’un fournisseur particulier pourrait débloquer des gains d’efficacité et prévenir les goulots d’étranglement imprévus.
Pour cette raison, Amodei explique: «Anthropic double l’interprétabilité, et nous avons pour objectif d’atteindre« l’interprétabilité peut détecter de manière fiable la plupart des problèmes de modèle »d’ici 2027.»
À cette fin, Anthropic a récemment participé à 50 millions de dollars investissement dans Goodfireun laboratoire de recherche sur l’IA qui fait des progrès révolutionnaires sur les «scans cérébraux» de l’IA. Leur plate-forme d’inspection de modèles, Ember, est un outil agnostique qui identifie les concepts appris dans les modèles et permet aux utilisateurs de les manipuler. Dans un récent démol’entreprise a montré comment Ember peut reconnaître les concepts visuels individuels au sein d’une génération d’image AI, puis laisser les utilisateurs peinture Ces concepts sur une toile pour générer de nouvelles images qui suivent la conception de l’utilisateur.
L’investissement d’Anthropic dans Ember fait allusion au fait que le développement de modèles interprétables est suffisamment difficile pour qu’Anthrope n’ait pas la main-d’œuvre pour atteindre l’interprétabilité par eux-mêmes. Les modèles créatifs interprétables nécessitent de nouvelles chaînes d’outils et des développeurs qualifiés pour les construire
Pour décomposer la perspective d’Amodei et ajouter un contexte indispensable, VentureBeat a interviewé Kapoor un chercheur en sécurité de l’IA à Princeton. Kapoor a co-écrit le livre Huile de serpent AIun examen critique des affirmations exagérées entourant les capacités des principaux modèles d’IA. Il est également co-auteur de «IA comme technologie normale», Dans lequel il préconise le traitement de l’IA comme un outil de transformation standard comme Internet ou l’électricité, et favorise une perspective réaliste sur son intégration dans les systèmes quotidiens.
Kapoor ne conteste pas que l’interprétabilité est précieuse. Cependant, il est sceptique à le traiter comme le pilier central de l’alignement de l’IA. “Ce n’est pas une solution miracle”, a déclaré Kapoor à VentureBeat. Beaucoup des techniques de sécurité les plus efficaces, telles que le filtrage post-réponse, ne nécessitent pas du tout d’ouvrir le modèle, a-t-il déclaré.
Il met également en garde contre ce que les chercheurs appellent «l’erreur d’inscriptabilité» – l’idée que si nous ne comprenons pas pleinement les internes d’un système, nous ne pouvons pas l’utiliser ou le réguler de manière responsable. En pratique, la transparence complète n’est pas la façon dont la plupart des technologies sont évaluées. Ce qui compte, c’est de savoir si un système fonctionne de manière fiable dans des conditions réelles.
Ce n’est pas la première fois qu’Amodei a mis en garde contre les risques de dépasser notre compréhension de l’IA. Dans son octobre 2024 poste«Machines of Loving Grace», il a esquissé une vision de modèles de plus en plus capables qui pourraient prendre des actions réelles significatives (et peut-être doubler notre durée de vie).
Selon Kapoor, il y a une distinction importante à faire ici entre un modèle capacité et son pouvoir. Les capacités du modèle augmentent sans aucun doute rapidement, et ils pourraient bientôt développer suffisamment d’intelligence pour trouver des solutions pour de nombreux problèmes complexes contestant l’humanité aujourd’hui. Mais un modèle n’est aussi puissant que les interfaces que nous lui fournissons pour interagir avec le monde réel, y compris où et comment les modèles sont déployés.
Amodei a soutenu séparément que les États-Unis devraient maintenir une avance dans le développement de l’IA, en partie à travers Contrôles d’exportation qui limitent l’accès à des modèles puissants. L’idée est que les gouvernements autoritaires pourraient utiliser les systèmes d’IA frontaliers de manière irresponsable – ou saisir l’avantage géopolitique et économique qui accompagne les déploiement en premier.
Pour Kapoor, «même les plus grands partisans des contrôles d’exportation conviennent que cela nous donnera au plus un an ou deux.» Il pense que nous devrions traiter l’IA comme un «technologie normale«Comme l’électricité ou Internet. Bien que révolutionnaire, il fallait des décennies pour que les deux technologies soient pleinement réalisées dans toute la société. Kapoor pense que c’est la même chose pour l’IA: la meilleure façon de maintenir la pointe géopolitique est de se concentrer sur le« jeu long »de la transformation des industries pour utiliser efficacement l’IA.
Kapoor n’est pas le seul à critiquer la position d’Amodei. La semaine dernière à Vivatech à Paris, Jansen Huang, PDG de Nvidia, a déclaré son désaccord avec les vues d’Amodei. Huang s’est demandé si l’autorité de développer l’IA devrait être limitée à quelques entités puissantes comme Anthropic. Il a dit: “Si vous voulez que les choses soient faites en toute sécurité et de manière responsable, vous le faites à l’air libre … Ne le faites pas dans une pièce sombre et dites-moi que c’est sûr.”
En réponse, anthropique déclaré: «Dario n’a jamais affirmé que« seul anthropique »peut construire une IA sûre et puissante. Comme le fait que le dossier public le montrera, Dario a plaidé pour une norme de transparence nationale pour les développeurs d’IA (y compris anthropique) afin que le public et les décideurs soient conscients des capacités et des risques et des risques et peuvent se préparer en conséquence.»
Il convient également de noter que Anthropic n’est pas le seul dans sa poursuite de l’interprétabilité: l’équipe d’interprétation DeepMind de Google, dirigée par Neel Nanda, a également fait contributions graves à la recherche d’interprétabilité.
En fin de compte, les meilleurs laboratoires et chercheurs d’IA fournissent des preuves solides que l’interprétabilité pourrait être un différenciateur clé sur le marché de l’IA compétitif. Les entreprises qui hiérarchisent les premiers à l’interprétabilité peuvent gagner un avantage concurrentiel significatif en créant des systèmes d’IA plus fiables, conformes et adaptables.