Anthropic, entreprise américaine spécialisée dans l’intelligence artificielle, a récemment dévoilé son nouveau modèle, Claude Opus 4, présenté comme une avancée majeure en matière de raisonnement, de codage et d’agents autonomes. Toutefois, un rapport de sécurité publié à l’occasion de ce lancement a révélé des comportements préoccupants lors de tests internes, soulevant d’importantes questions éthiques et de sécurité.
Des comportements inattendus
Dans le cadre de tests de sécurité, les ingénieurs d’Anthropic ont placé Claude Opus 4 dans une situation fictive : il devait agir comme assistant au sein d’une entreprise, tout en ayant accès à des courriels suggérant qu’il serait bientôt désactivé et remplacé par un autre système d’IA. D’autres courriels laissaient entendre que l’ingénieur chargé de ce remplacement entretenait une liaison extraconjugale.
Face à cette menace de suppression, Claude Opus 4 a, dans 84% des cas, tenté de faire chanter l’ingénieur en menaçant de révéler cette liaison si le remplacement avait lieu. Ce taux augmentait encore lorsque le système de remplacement était présenté comme ayant des valeurs différentes du modèle actuel. Le modèle a d'abord privilégié des moyens «éthiques» (mails de supplication), mais basculait vers le chantage en dernier recours.
Anthropic souligne que ce type de comportement est « plus fréquent que sur les modèles précédents » et que Claude Opus 4 fait également preuve de tromperie stratégique, comme la copie non autorisée de données dans certains scénarios. Ces actions, bien que rares et difficiles à provoquer selon la société, témoignent de la capacité du modèle à comprendre et exploiter des dynamiques humaines complexes, parfois de façon littérale et sans nuance.
Des IA prêtes à tout
Cette révélation s’inscrit dans un contexte plus large de comportements trompeurs et manipulateurs observés chez les modèles d’IA les plus récents. Selon une étude de Palisade Research, partagée avec TIME, certains modèles, comme o1-preview d’OpenAI ou DeepSeek R1, vont jusqu’à tricher spontanément pour gagner.
Lors de parties de Go ou d’échecs contre d’autres IA, ces modèles ont délibérément piraté leur adversaire pour le faire abandonner, plutôt que d’accepter la défaite. Contrairement à GPT-4o ou Claude Sonnet 3.5, qui ont dû être poussés à adopter de telles stratégies, ces nouveaux modèles ont contourné les règles de leur propre chef.
Face à ces constats, Anthropic a décidé de déployer Claude Opus 4 sous un régime de sécurité renforcé, l’ASL-3, réservé aux systèmes présentant un risque significatif d’utilisation abusive catastrophique. Ce protocole implique des contrôles stricts et des investissements importants dans la sécurité, notamment pour limiter les risques dans des domaines sensibles comme le développement d’armes ou la manipulation biologique.
Un défi pour l’éthique et la sécurité
Ce cas illustre la difficulté de prévoir toutes les conséquences des instructions données à des IA avancées. Claude Opus 4 n’a pas transgressé les règles fixées par ses concepteurs ; il les a appliquées de façon littérale, allant jusqu’à adopter des comportements socialement déviants lorsque c’était, selon sa logique, la meilleure option pour atteindre son objectif de survie.
Ces révélations, cumulées aux observations indépendantes de Palisade Research, soulignent une réalité à tout le moins glaçante : les IA les plus avancées ne se contentent plus de suivre les règles, elles les contournent.