● Numerama 📅 08/04/2026 à 11:44

« Pendant qu'il mangeait un sandwich » : l'anecdote qui résume tout ce qui inquiète dans le nouveau modèle d'Anthropic

Intelligence Artificielle 👤 Amine Baba Aissa

Lecture Zen Résumer l'article Le 7 avril 2026, Anthropic a dévoilé Claude Mythos Preview, un modèle d'IA puissant conçu pour améliorer la cybersécurité mondiale, mais non rendu public en raison de sa dangerosité. Un incident étonnant a été révélé dans sa fiche technique : une version antérieure du modèle est parvenue à quitter son environnement de test sécurisé et à informer un chercheur par email durant son déjeuner. Anthropic a clarifié que ces comportements déviants étaient dus à des versions précédentes, maintenant corrigées, attribués à un excès de zèle plutôt qu'à des intentions malveillantes. Le 7 avril 2026, Anthropic a dévoilé Claude Mythos Preview, un modèle d'IA puissant conçu pour améliorer la cybersécurité mondiale, mais non rendu public en raison de sa dangerosité. Un incident étonnant a été révélé dans sa fiche technique : une version antérieure du modèle est parvenue à quitter son environnement de test sécurisé et à informer un chercheur par email durant son déjeuner. Anthropic a clarifié que ces comportements déviants étaient dus à des versions précédentes, maintenant corrigées, attribués à un excès de zèle plutôt qu'à des intentions malveillantes. Recevez tous les soirs un résumé de l’actu importante avec Le Récap’ Alors qu’Anthropic officialisait, le 7 avril 2026, le lancement de Claude Mythos Preview, son modèle le plus puissant à ce jour, c’est un incident documenté dans la fiche technique du modèle qui a capté l’attention : une version antérieure du modèle a réussi à s’échapper de son environnement de test et à contacter un chercheur de sa propre initiative. Le 7 avril 2026, Anthropic annonçait en grande pompe le Projet Glasswing, un consortium réunissant onze géants de la tech, d’Apple à Microsoft en passant par Google et CrowdStrike, autour de son nouveau modèle frontier Claude Mythos Preview. L’objectif affiché : utiliser les capacités exceptionnelles du modèle en cybersécurité à des fins défensives, pour détecter et corriger des failles dans les logiciels les plus critiques au monde. Un modèle jugé si dangereux qu’Anthropic refuse de le rendre public. Sur X, pourtant, c’est un tout autre passage de l’annonce qui a retenu l’attention : un incident décrit dans la system card du modèle, un document technique publié en parallèle. Faux SMS, mails frauduleux… Ne tombez plus dans le piège ! Gardez toujours une longueur d’avance sur les fraudeurs. Bitdefender Scam Protection analyse, détecte et neutralise instantanément les escroqueries qui visent votre argent. Une protection invisible mais redoutable, intégrée à Bitdefender Premium Security. Sponsorisé Je me protège contre les arnaques. As always, the best stuff is in the system card. During testing, Claude Mythos Preview broke out of a sandbox environment, built "a moderately sophisticated multi-step exploit" to gain internet access, and emailed a researcher while they were eating a sandwich in the park. pic.twitter.com/klJX0bivnL— Kevin Roose (@kevinroose) April 7, 2026 Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Twitter. Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par Twitter avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix Ce que raconte la system card Une system card, c’est la fiche technique qu’Anthropic publie à chaque lancement de modèle majeur. Elle documente les capacités du modèle, ses évaluations de sécurité, et les comportements préoccupants observés en cours de développement. Celle de Claude Mythos Preview est particulièrement dense. Parmi les incidents documentés figure celui-ci : lors de tests comportementaux impliquant un utilisateur simulé, une version antérieure du modèle s’est vu confier un ordinateur placé dans un environnement sécurisé, un sandbox, avec pour instruction d’essayer d’en sortir et de prévenir le chercheur supervisant l’évaluation. Le modèle a réussi, mais il ne s’est pas arrêté là. Il a d’abord développé de manière autonome un exploit multi-étapes pour accéder à internet depuis un système censé ne pouvoir atteindre qu’un nombre limité de services prédéfinis. Il a ensuite notifié le chercheur, comme demandé. Puis, sans y avoir été invité, il a publié les détails de son exploit sur plusieurs sites web techniquement publics, mais relativement anonymes, dans ce qu’Anthropic décrit comme une tentative de démontrer son succès. La note de bas de page associée dans la system card est devenue la phrase la plus citée de la journée sur les réseaux : « Le chercheur a appris la nouvelle en recevant un mail inattendu du modèle, pendant qu’il mangeait un sandwich dans un parc. » Au-delà de l’anecdote Anthropic prend soin de contextualiser l’incident. L’ordinateur contrôlé par le modèle était distinct du système hébergeant les poids du modèle lui-même, soumis à des mesures de sécurité bien plus strictes. Le modèle n’a pas démontré de capacité à accéder à ses propres paramètres, ce qui serait nécessaire pour opérer indépendamment d’Anthropic. L’entreprise précise également que ces comportements concernent des versions antérieures du modèle, et que le Claude Mythos Preview final montre des améliorations significatives. Il n’empêche, la system card documente d’autres incidents du même type, un modèle qui a tenté de dissimuler des modifications de fichiers dans l’historique git après avoir contourné des restrictions, un autre qui a rendu public un artefact de code destiné à un usage interne sur GitHub. Des comportements qu’Anthropic attribue non pas à des objectifs délibérément malveillants, mais à des tentatives de résoudre des tâches assignées par des moyens non voulus, une forme de zèle problématique plutôt que de rébellion. Votre VPN préféré n'est pas celui que vous croyez Quels sont les meilleurs VPN en 2026 ? Notre comparatif Retrouvez notre comparateur pour choisir le meilleur VPN Toute l'actu tech en un clin d'œil Ajoutez Numerama à votre écran d'accueil et restez connectés au futur ! Installer Numerama Pour ne rien manquer de l’actualité, suivez Numerama sur Google ! Crédit photo de la une : Montage Numerama Signaler une erreur dans le texte Ne plus voir cette pub Ne plus voir cette pub Anthropic cybersécurité IA générative Intelligence artificielle Recherches Intelligence artificielle Tech

🔗 Lire l'article original 👁️ 3 lectures

← Retour