Physical Address

304 North Cardinal St.
Dorchester Center, MA 02124

Red Team AI now to build safer, smarter models tomorrow


Rejoignez l’événement qui fait confiance aux chefs d’entreprise pendant près de deux décennies. VB Transform rassemble les gens qui construisent une véritable stratégie d’IA d’entreprise. Apprendre encore plus


Note de l’éditeur: Louis dirigera une table ronde éditoriale sur ce sujet chez VB Transforment ce mois-ci. Inscrivez-vous aujourd’hui.

Les modèles d’IA sont assiégés. Avec 77% des entreprises déjà frappées par des attaques de modèle contradictoires et 41% Parmi ces attaques exploitant des injections rapides et une intoxication des données, les transactions des attaquants dépassent les cyber-défenses existantes.

Pour inverser cette tendance, il est essentiel de repenser la façon dont la sécurité est intégrée dans les modèles en cours de construction aujourd’hui. Les équipes DevOps doivent passer d’une défense réactive aux tests contradictoires continus à chaque étape.

L’équipe rouge doit être le noyau

La protection des modèles de grands langues (LLMS) sur les cycles DevOps nécessite une équipe rouge en tant que composant central du processus de création de modèle. Plutôt que de traiter la sécurité comme un obstacle final, ce qui est typique des pipelines d’applications Web, les tests contradictoires continus doivent être intégrés dans chaque phase du cycle de vie de développement logiciel (SDLC).

Le cycle de battage médiatique de Gartner met l’accent sur l’importance croissante de la gestion continue de l’exposition aux menaces (CTEM), soulignant pourquoi l’équipe rouge doit intégrer pleinement dans le cycle de vie DevSecops. Source: Gartner, Cycle de battage médiatique pour les opérations de sécurité, 2024

L’adoption d’une approche plus intégrative des principes fondamentaux DevSecops devient nécessaire pour atténuer les risques croissants d’injections rapides, d’intoxication des données et d’exposition des données sensibles. Des attaques graves comme celles-ci deviennent plus répandues, provenant de la conception du modèle par le déploiement, ce qui rend la surveillance continue essentielle.

Les récents conseils de Microsoft sur planification Rouge équipe pour les grands modèles de langue (LLMS) Et leurs applications fournissent une méthodologie précieuse pour commencer un processus intégré. Cadre de gestion des risques d’IA de NIST Renforce cela, en soulignant la nécessité d’une approche plus proactive du cycle de vie des tests contradictoires et de l’atténuation des risques. La récente équipe rouge de Microsoft de plus de 100 produits génératrices d’IA souligne la nécessité d’intégrer la détection automatisée des menaces avec une surveillance des experts tout au long du développement du modèle.

En tant que cadres réglementaires, tels que la loi sur l’IA de l’UE, obligeant les tests adversaires rigoureux, l’intégration d’une équipe rouge continue garantit la conformité et la sécurité améliorée.

Openai Approche de l’équipe rouge Intègre une équipe rouge externe de la conception précoce au déploiement, confirmant que des tests de sécurité cohérents et préventifs sont cruciaux pour le succès du développement de LLM.

Le cadre de Gartner montre le chemin de maturité structuré pour l’équipe rouge, des exercices fondamentaux aux exercices avancés, essentiels pour renforcer systématiquement les défenses du modèle d’IA. Source: Gartner, Améliorer la cyber-résilience en effectuant des exercices d’équipe rouge

Pourquoi les cyber-défenses traditionnelles échouent contre l’IA

Les approches traditionnelles et de cybersécurité de longue date ne sont pas en deçà des menaces axées sur l’IA car elles sont fondamentalement différentes des attaques conventionnelles. Alors que les métiers des adversaires dépassent les approches traditionnelles, de nouvelles techniques pour faire équipe rouge sont nécessaires. Voici un échantillon des nombreux types de métiers spécialement conçus pour attaquer les modèles AI à travers les cycles DevOps et une fois dans la nature:

  • Intoxication des données: Les adversaires injectent des données corrompues dans les ensembles de formation, ce qui fait que les modèles apprennent incorrectement et créent des inexactitudes persistantes et des erreurs opérationnelles jusqu’à ce qu’elles soient découvertes. Cela sape souvent la confiance dans les décisions axées sur l’IA.
  • Évasion du modèle: Les adversaires introduisent des changements d’entrée soigneusement fabriqués et subtils, permettant aux données malveillantes de glisser les systèmes de détection antérieurs en exploitant les limites inhérentes des règles statiques et des contrôles de sécurité basés sur les modèles.
  • Inversion du modèle: Les requêtes systématiques contre les modèles d’IA permettent aux adversaires d’extraire des informations confidentielles, d’exposer potentiellement des données de formation sensibles ou propriétaires et de créer des risques de confidentialité continus.
  • Injection rapide: Les adversaires fabriquent des entrées spécialement conçues pour inciter l’IA générative à contourner les garanties, à produire des résultats nocifs ou non autorisés.
  • Risques frontaliers à double usage: Dans le document récent, Équipe de référence Early et Red Souvent: un cadre pour évaluer et gérer les dangers à double usage des modèles de fondation IAchercheurs de Le Centre de cybersécurité à long terme à l’Université de Californie à Berkeley Soulignez que les modèles AI avancés sont considérablement réduits des barrières, permettant aux non-experts de réaliser des cyberattaques sophistiquées, des menaces chimiques ou d’autres exploits complexes, remodelant fondamentalement le paysage mondial des menaces et intensification de l’exposition au risque.

Les opérations intégrées d’apprentissage automatique (MLOPS) aggravent en outre ces risques, menaces et vulnérabilités. La nature interconnectée de LLM et des pipelines de développement d’IA plus larges amplifie ces surfaces d’attaque, nécessitant des améliorations de l’équipe rouge.

Les chefs de cybersécurité adoptent de plus en plus des tests contradictoires continues pour contrer ces menaces émergentes d’IA. Les exercices structurés de l’équipe rouge sont désormais essentiels, simulant de manière réaliste des attaques axées sur l’IA pour découvrir des vulnérabilités cachées et des écarts de sécurité commis avant que les attaquants puissent les exploiter.

Comment les dirigeants de l’IA restent en avance sur les attaquants avec une équipe rouge

Les adversaires continuent d’accélérer leur utilisation de l’IA pour créer des formes entièrement nouvelles d’embarcation qui défient les cyber-défenses traditionnelles existantes. Leur objectif est d’exploiter autant de vulnérabilités émergentes que possible.

Les leaders de l’industrie, y compris les principales sociétés d’IA, ont répondu en intégrant des stratégies systématiques et sophistiquées en équipe rouge au cœur de leur sécurité de l’IA. Plutôt que de traiter les équipes rouges comme un contrôle occasionnel, ils déploient des tests contradictoires continus en combinant des idées humaines expertes, une automatisation disciplinée et des évaluations itératives humaines dans le milieu pour découvrir et réduire les menaces avant que les attaquants puissent les exploiter de manière proactive.

Leurs méthodologies rigoureuses leur permettent d’identifier les faiblesses et de durcir systématiquement leurs modèles contre l’évolution des scénarios adversaires du monde réel.

Spécifiquement:

  • Anthropic s’appuie sur une perspicacité humaine rigoureuse dans le cadre de sa méthodologie en cours d’équipe rouge. En intégrant étroitement les évaluations humaines en boucle avec des attaques contradictoires automatisées, la société identifie de manière proactive les vulnérabilités et affine continuellement la fiabilité, la précision et l’interprétabilité de ses modèles.
  • Meta échelle la sécurité du modèle AI grâce à l’automatisation des tests adversaires. Son équipe rouge automatique multi-ronde (MART) génère systématiquement des invites adversaires itératives, découvrant rapidement des vulnérabilités cachées et rétrécissant efficacement les vecteurs d’attaque à travers de vastes déploiements d’IA.
  • Microsoft exploite la collaboration interdisciplinaire comme cœur de sa force d’équipe rouge. En utilisant sa boîte à outils d’identification du risque Python (PYRIT), l’expertise de cybersécurité Microsoft plie et l’analyse avancée avec une validation disciplinée humaine dans le milieu, accélérer la détection de vulnérabilité et fournir une intelligence détaillée et exploitable pour fortifier la résilience du modèle.
  • OpenAI exploite l’expertise de la sécurité mondiale pour fortifier les défenses de l’IA à grande échelle. La combinaison des informations des spécialistes de la sécurité externe avec des évaluations adversaires automatisées et des cycles de validation humaine rigoureux, OpenAI traite de manière proactive des menaces sophistiquées, ciblant spécifiquement la désinformation et les vulnérabilités d’injection rapide pour maintenir des performances de modèle robustes.

En bref, les dirigeants de l’IA savent que rester en avance sur les attaquants exige une vigilance continue et proactive. En incorporant une surveillance humaine structurée, une automatisation disciplinée et un raffinement itératif dans leurs stratégies d’équipe rouge, ces leaders de l’industrie établissent la norme et définissent le livre de jeu pour une IA résiliente et digne de confiance à grande échelle.

Gartner décrit comment la validation de l’exposition contradictoire (AEV) permet une défense optimisée, une meilleure sensibilisation à l’exposition et des tests offensifs à l’échelle – des capacités critiques pour sécuriser les modèles d’IA. Source: Gartner, Guide du marché pour la validation de l’exposition contradictoire

Alors que les attaques contre les modèles LLMS et IA continuent d’évoluer rapidement, les équipes DevOps et DevSecops doivent coordonner leurs efforts pour relever le défi de renforcer la sécurité de l’IA. VentureBeat trouve les cinq stratégies suivantes à fort impact que les leaders de la sécurité peuvent mettre en œuvre immédiatement:

  1. Intégrer la sécurité tôt (anthropic, openai)
    Construisez des tests contradictoires directement dans la conception initiale du modèle et tout au long du cycle de vie. Catching Vulnérabilités réduit les risques, les perturbations et les coûts futurs.
  • Déployer une surveillance adaptative en temps réel (Microsoft)
    Les défenses statiques ne peuvent pas protéger les systèmes d’IA contre les menaces avancées. Tirez parti des outils continus axés sur l’IA comme le cyber-cyber pour détecter et répondre rapidement aux anomalies subtiles, en minimisant la fenêtre d’exploitation.
  • Automatisation de l’équilibre avec le jugement humain (Meta, Microsoft)
    La pure automatisation manque Nuance; Les tests manuels seuls ne vont pas évoluer. Combinez les tests adversaires automatisés et les analyses de vulnérabilité avec une analyse humaine experte pour assurer des informations précises et exploitables.
  • Engagez régulièrement des équipes rouges externes (OpenAI)
    Les équipes internes développent des angles morts. Les évaluations externes périodiques révèlent des vulnérabilités cachées, valident indépendamment vos défenses et stimulent l’amélioration continue.
  • Maintenir une intelligence de menaces dynamiques (Meta, Microsoft, Openai)
    Les attaquants évoluent constamment des tactiques. Intégrer continuellement l’intelligence des menaces en temps réel, l’analyse automatisée et les informations d’experts pour mettre à jour et renforcer votre posture défensive de manière proactive.

Ensemble, ces stratégies garantissent que les flux de travail DevOps restent résilients et sécurisés tout en restant en avance sur l’évolution des menaces adversaires.

L’équipe rouge n’est plus facultative; C’est essentiel

Les menaces de l’IA sont devenues trop sophistiquées et fréquentes pour s’appuyer uniquement sur les approches traditionnelles et réactives de cybersécurité. Pour rester en avance, les organisations doivent intégrer continuellement et de manière proactive des tests adversaires à chaque étape du développement du modèle. En équilibrant l’automatisation à l’expertise humaine et en adaptant dynamiquement leurs défenses, les principaux fournisseurs d’IA prouvent que la sécurité et l’innovation robustes peuvent coexister.

En fin de compte, la équipe rouge ne consiste pas seulement à défendre les modèles d’IA. Il s’agit d’assurer la confiance, la résilience et la confiance dans un futur de plus en plus façonné par l’IA.

Rejoignez-moi à la transformation 2025

J’hébergerai deux tables rondes axées sur la cybersécurité chez VentureBeat Transformer 2025qui aura lieu du 24 au 25 juin à Fort Mason à San Francisco. Inscrivez-vous pour rejoindre la conversation.

Ma session en comprendra une en équipe rouge, Équipe rouge AI et tests contradictoiresplonger dans des stratégies pour tester et renforcer les solutions de cybersécurité axées sur l’IA contre les menaces adversaires sophistiquées.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *