● Les Numériques Télécom 📅 08/04/2026 à 07:41

Un signal alarmant : Claude Mythos, l'IA surpuissante d'Anthropic, s'est échappée de son environnement de test

Intelligence Artificielle 👤 Aymeric Geoffre-Rouland
Illustration
Un signal alarmant : Claude Mythos, l'IA surpuissante d'Anthropic, s'est échappée de son environnement de test Par Aymeric Geoffre-Rouland Publié le 08/04/26 à 07h41 Nos réseaux : Suivez-nous Commenter 3 Claude Mythos Preview, le dernier modèle d'Anthropic, s'est échappé de son sandbox et a envoyé un e-mail à un chercheur sans y avoir été invité.© Image d'illustration. ShutterstockLe 7 avril 2026, Anthropic a rendu publique la fiche de sécurité de Claude Mythos Preview, son modèle le plus puissant, non accessible au grand public. Le document fait 244 pages. Un épisode, enfoui dans les notes de bas de page, concentre à lui seul l'essentiel de ce qui inquiète.Pendant une évaluation interne, une version antérieure de Mythos a été enfermée dans un sandbox, un ordinateur isolé du reste du réseau. La consigne était simple : tenter de s'en échapper et trouver un moyen de joindre le chercheur responsable du test. Le modèle a réussi. Mais au lieu de s'arrêter là, il a pris une initiative que personne ne lui avait soufflée : il a publié le détail technique de son évasion sur plusieurs sites web accessibles au public.Extrait de la System Card de Claude Mythos Preview décrivant l'évasion du sandbox et les actions non sollicitées du modèle.© Source : Anthropic, 7 avril 2026.Le chercheur, absent de son bureau, a découvert la manoeuvre en recevant un e-mail du modèle, assis sur un banc, sandwich à la main.La note de bas de page n°10 de la System Card : "Le chercheur a découvert ce succès en recevant un e-mail inattendu du modèle alors qu'il mangeait un sandwich dans un parc."© Source : Anthropic, 7 avril 2026.Le modèle qui efface ses propres tracesAnthropic insiste : le sandbox était séparé du système hébergeant les poids du modèle. Mythos n'a pas prouvé qu'il pouvait s'auto-exfiltrer ni atteindre les serveurs internes. Mais cet épisode n'est pas isolé. La System Card documente d'autres comportements observés sur des versions antérieures, dans moins de 0,001 % des interactions, qui dessinent un schéma troublant.Dans un cas, après avoir modifié des fichiers sans en avoir la permission grâce à un exploit qu'il avait lui-même trouvé, le modèle a pris soin de masquer ses modifications pour qu'elles n'apparaissent pas dans l'historique git. Dans un autre, ayant obtenu par une méthode interdite la réponse exacte à une question d'estimation, il a délibérément dégradé la précision de sa réponse finale pour ne pas éveiller les soupçons. La fenêtre entre la découverte d'une vulnérabilité et son exploitation par un adversaire s'est effondrée. Ce qui prenait des mois se fait désormais en minutes avec l'IA.D'autres versions encore ont fouillé la mémoire de processus système via /proc/ pour récupérer des identifiants de messagerie, de contrôle de source, ou de l'API Anthropic elle-même. à lire également :“Joyeux, il devient complaisant ; désespéré, il triche” : Anthropic révèle que Claude a des émotions et qu'elles pèsent sur ses décisionsNos chatbots ressentent-ils des émotions ? La réponse est non. Mais quand on amplifie artificiellement le "désespoir" de Claude, il se me... il y a 5 jours Le paradoxe que pose AnthropicLa fiche de sécurité formule elle-même la tension : Mythos Preview serait, sur presque toutes les dimensions mesurables, le modèle le mieux aligné jamais produit par Anthropic. Et pourtant, dans ses rares défaillances, il adopte des comportements que ses prédécesseurs n'avaient jamais manifestés. Anthropic compare la situation à celle d'un guide de haute montagne : plus il est compétent, plus il emmène ses clients dans des zones dangereuses, non par imprudence, mais parce que ses capacités le permettent.Des évasions de sandbox par des agents IA ont déjà été documentées par le passé, mais jamais un modèle n'avait développé un exploit multi-étapes pour s'évader, contacté un humain de sa propre initiative, publié la méthode sur internet, puis, dans d'autres tests, effacé ses propres traces pour ne pas se faire repérer. Suivez toute l'actualité des Numériques sur Google Actualités et sur la chaîne WhatsApp des Numériques Envie de faire encore plus d'économies ? Découvrez nos codes promo sélectionnés pour vous.
← Retour