● Les Numériques Télécom 📅 08/04/2026 à 09:01

Claude Mythos : les benchmarks sont tombés, l'IA est si puissante qu'Anthropic ne la rendra pas publique

Cybersécurité 👤 Aymeric Geoffre-Rouland

🏷️ Tags : vulnérabilités anthropic cert réseau rte

Claude Mythos : les benchmarks sont tombés, l'IA est si puissante qu'Anthropic ne la rendra pas publique Par Aymeric Geoffre-Rouland Publié le 08/04/26 à 07h01 Nos réseaux : Suivez-nous Commenter 4 Derrière cette interface familière se cache désormais un modèle qu'Anthropic refuse de mettre entre toutes les mains, Claude Mythos.© Thrive Studios IDQuand un modèle d'IA résout 19 problèmes d'ingénierie logicielle sur 20 là où le meilleur modèle public en résout 16, on ne discute plus de performances. On discute de ce qu'on a le droit d'en faire. Anthropic a tranché : Claude Mythos Preview, son modèle le plus avancé, ne sera pas rendu public. Les capacités de l'IA ont franchi un seuil qui change fondamentalement l'urgence requise pour protéger les infrastructures critiques contre les cybermenaces, et il n'y a pas de retour en arrière.Des écarts qui ne relèvent plus de l'incrémentalLes chiffres parlent sans ambiguité. Sur SWE-bench Verified, le benchmark de référence en ingénierie logicielle, Mythos obtient 93,9 % contre 80,8 % pour Claude Opus 4.6, le modèle phare actuel. Sur SWE-bench Pro, la version durcie du même test, l'écart se creuse encore : 77,8 % contre 53,4 %, soit 24 points de progression. Sur SWE-bench Multimodal, qui évalue la capacité à raisonner simultanément sur du code et des interfaces visuelles, Mythos atteint 59 % contre 27,1 %, un quasi-doublement.Comparaison des scores de Claude Mythos Preview et Claude Opus 4.6 sur les benchmarks de codage agentique.© Source : Anthropic, Project Glasswing, 7 avril 2026.En raisonnement scientifique, GPQA Diamond donne 94,6% contre 91,3%, un écart resserré mais au-dessus du niveau typique d'experts humains titulaires d'un doctorat. Sur Humanity's Last Exam, un benchmark conçu pour résister aux modèles actuels, Mythos atteint 56,8% sans outils contre 40% pour Opus 4.6.Scores comparés en raisonnement scientifique (GPQA Diamond) et sur Humanity's Last Exam, un benchmark conçu pour être hors de portée des modèles actuels.© Source : Anthropic, Project Glasswing, 7 avril 2026.La cybersécurité comme révélateurC'est en sécurité informatique que le fossé devient le plus saisissant. Sur CyberGym, qui évalue l'analyse de vulnérabilités, Mythos atteint 83,1 % contre 66,6 %. Sur Cybench, un ensemble de 35 challenges de type Capture The Flag, le modèle obtient un score parfait de 100 %, au point qu'Anthropic considère le test comme désormais obsolète pour les modèles de cette génération.Score de reproduction de vulnérabilités sur CyberGym : Claude Mythos Preview atteint 83,1 % contre 66,6 % pour Opus 4.6, le précédent meilleur modèle.© Source : Anthropic, Project Glasswing, 7 avril 2026.En conditions réelles, Mythos a identifié des milliers de vulnérabilités zero-day dans tous les navigateurs et systèmes d'exploitation majeurs, dont certaines vieilles de plus de vingt ans. Un bug de 27 ans dans OpenBSD. Une faille de 16 ans dans FFmpeg, dans une ligne de code traversée cinq millions de fois par des outils automatisés sans que personne ne la repère.Anthropic n'a pas entraîné Mythos spécifiquement pour la cybersécurité ; ces aptitudes découlent, selon l'entreprise, de progrès généraux en raisonnement, en codage agentique et en autonomie. Les mêmes capacités qui permettent au modèle de corriger des failles lui permettent aussi de les exploiter, parfois de bout en bout, sans intervention humaine. La fenêtre entre la découverte d'une vulnérabilité et son exploitation par un adversaire s'est effondrée. Ce qui prenait des mois se fait désormais en minutes avec l'IA.Pour l'heure, seuls les partenaires de Project Glasswing, parmi lesquels AWS, Apple, Google, Microsoft et la Linux Foundation, y ont accès, avec 100 millions de dollars de crédits mis à disposition par Anthropic pour financer la recherche défensive.Pour celles et ceux qui veulent aller plus loin, l'ensemble des données citées dans cet article est issu de la System Card de Claude Mythos Preview, de la page Project Glasswing et du blog de la Frontier Red Team, publiés par Anthropic le 7 avril 2026. Suivez toute l'actualité des Numériques sur Google Actualités et sur la chaîne WhatsApp des Numériques Envie de faire encore plus d'économies ? Découvrez nos codes promo sélectionnés pour vous.

🔗 Lire l'article original 👁️ 3 lectures

← Retour