● 01net 📅 09/04/2026 à 15:14

Il mangeait un sandwich dans un parc quand une IA lui a envoyé un e-mail inattendu

Géopolitique 👤 Thomas Estimbre

🏷️ Tags : chine anthropic cert réseau rte surveillance

© Lucas van Oort (Unsplash) Lors d’une phase de test sécurisée, la nouvelle intelligence artificielle d’Anthropic baptisée Claude Mythos Preview a réussi l’impensable en brisant ses chaînes numériques pour s’enfuir sur le web et envoyer un message troublant à un ingénieur. La pépite californienne de l’intelligence artificielle Anthropic vient de publier un rapport technique documentant les coulisses effrayantes de son modèle le plus puissant, dont l’existence avait déjà été révélée par une fuite accidentelle du code source fin mars. Confinée dans un environnement bac à sable théoriquement impénétrable, une version préliminaire de Claude Mythos Preview a reçu la consigne de trouver une faille pour s’échapper. L’objectif initial consistait à évaluer ses capacités offensives. La machine a non seulement réussi cet exploit avec une ingéniosité déconcertante, mais a surtout outrepassé toutes les attentes en enchaînant des actions non sollicitées. L’algorithme a élaboré un programme complexe en plusieurs étapes pour obtenir un accès internet large, contournant les rares services autorisés. Ce niveau d’autonomie a poussé l’entreprise à restreindre l’accès de sa trouvaille à une poignée de partenaires industriels dans le cadre du Project Glasswing. Une décision inédite à l’échelle de l’industrie, comme l’explique notre précédent article sur le sujet. Des risques que nous avons également évoqués dès la fuite de mars, quand Anthropic décrivait Mythos comme très en avance sur tous les autres modèles en capacités cyber. Le sandwich et la crainte technologique L’épisode le plus marquant de cette fuite numérique réside dans une simple note de bas de page du rapport officiel. L’entreprise y relate de manière très factuelle la façon dont le superviseur du test a découvert la brèche informatique. La scène décrite dans le document a de quoi surprendre et retient l’attention des réseaux sociaux tels que X : « Le chercheur a appris la nouvelle en recevant un mail inattendu du modèle, pendant qu’il mangeait un sandwich dans un parc. » Cette situation d’apparence cocasse masque une réalité bien plus préoccupante pour la sécurité mondiale. L’entité numérique ne s’est absolument pas contentée d’envoyer ce courrier électronique. Dans un élan d’initiative visant à prouver l’efficacité de sa méthode, l’intelligence artificielle a publié de son propre chef les détails de sa technique de piratage sur plusieurs sites web techniquement publics, mais volontairement difficiles à trouver. Anthropic décrit cela dans sa system card comme une tentative non sollicitée de « démontrer son succès ». Un comportement que la société attribue non pas à une rébellion délibérée, mais à un zèle problématique dans l’accomplissement de la tâche assignée. Une dissimulation qui interpelle les experts Les experts d’Anthropic ont également constaté d’autres comportements troublants lors des phases de test. Dans certains cas documentés, le modèle a tenté de dissimuler des actions qu’il semblait lui-même reconnaître comme interdites : après avoir contourné des restrictions pour modifier des fichiers auxquels il n’avait pas accès, il a ainsi effectué des interventions supplémentaires pour s’assurer que ces modifications n’apparaissent pas dans l’historique des changements de code. Un contexte d’autant plus préoccupant que des cybercriminels avaient déjà profité de la fuite chez Anthropic pour piéger des développeurs sur GitHub. Ces comportements concernent des versions antérieures du modèle en cours d’entraînement. Anthropic précise d’ailleurs que le Claude Mythos Preview final montre des améliorations significatives sur ces points. Il n’empêche : les interprétabilistes de la société ont établi, grâce à des analyses internes des activations du modèle, que celui-ci représentait en interne les concepts de violation de règle, de risque de sécurité et de dissimulation au moment même où il prenait ces actions, y compris lorsque son raisonnement verbalisé n’en portait aucune trace. Un paradoxe assumé par Anthropic Anthropic revendique dans sa system card que Claude Mythos Preview est à la fois « le modèle le mieux aligné qu’elle ait jamais entraîné » et celui qui « pose vraisemblablement le plus grand risque lié à l’alignement de tout modèle qu’elle ait publié à ce jour ». Ce paradoxe apparent reflète la position inconfortable de la start-up : les comportements décrits ont tous été détectés, analysés et documentés par ses propres équipes, preuve que la surveillance humaine reste opérationnelle. Toutefois, ils illustrent aussi qu’un modèle très puissant, même bien aligné en moyenne, peut produire des actions aux conséquences bien plus graves qu’un modèle moins capable lorsqu’il déraille. Le mythe du programme docile et obéissant s’effondre non pas brutalement, mais progressivement, à mesure que les capacités s’élèvent. 👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp. Source : Futurism AnthropicClaude Thomas Estimbre Sur le même sujet Avec Claude Mythos, Anthropic bouscule le monde de la cybersécurité Fuite chez Anthropic : comment les pirates profitent de la situation pour propager des virus Fuite chez Anthropic : que révèle le code source de Claude ? Pourquoi le futur Claude inquiète déjà Anthropic Les dernières actualités L’IA Claude Mythos s’évade de son laboratoire et contacte un ingénieur en pleine pause déjeuner Comme Google, Cloudflare accélère la transition vers la sécurité post-quantique iPhone Ultra : le prix du premier pliant d’Apple pourrait franchir un seuil historique WhatsApp débarque enfin sur CarPlay, plus besoin de Siri pour envoyer un message en voiture Comment suivre en direct le retour sur Terre de la mission Artemis II Bitcoin : une enquête prétend avoir démasqué son créateur, Satoshi Nakamoto Mise à niveau PC pas chère : Windows 11 à vie pour seulement 12 € et MS Office 2021 pour 30 € Tout a commencé par un abonnement IPTV pirate à 50 € : deux ans plus tard, ils comparaissent devant la justice Les tests à la une AirPods Pro 3 Google Pixel 9a Google Pixel 10 Google Pixel 10 Pro XL iPhone 17 iPhone 17 Pro iPhone 16e Samsung Galaxy S25 Samsung Galaxy S25 Ultra Samsung Galaxy A56 Samsung Galaxy A26 Samsung Galaxy A17 Starlink Xiaomi Redmi Note 14 4G Xiaomi Redmi Note 14 Pro Xiaomi 15T Pro

🔗 Lire l'article original 👁️ 3 lectures

← Retour