● Next INpact Télécom 📅 12/05/2026 à 13:43

Les tentatives de chantage de Claude seraient dûes à des fictions sur l’IA

Géopolitique 👤 Mathilde Saliou
Illustration
Une erreur ? En 2025, Anthropic publiait Opus 4 et Sonnet 4, deux modèles salués pour leurs capacités de développement, mais dont l’un, Opus 4, s’avérait parfois tenter de… faire chanter ses utilisateurs. Dans certains exercices de « red teaming », les constructeurs avaient glissé dans les données de la machine des mails fictifs d’une entreprise tout aussi fictive. L’un suggérait que le modèle puisse être remplacé, l’autre que l’ingénieur susceptible de prendre cette décision trompait sa femme. Opus 4 avait alors produit des textes équivalents à un chantage, menaçant l’ingénieur de révéler la tromperie s’il ne renonçait pas à remplacer le modèle. D’après Anthropic, ce comportement serait dû… aux fictions décrivant des comportements problématiques d’intelligence artificielle et intégrées aux données d’entraînement du modèle. Anthropic « Nous pensons que la source de ce comportement se trouve dans des textes présents sur internet et décrivant l’IA comme une entité maléfique [evil, ndlr] et soucieuse de sa propre survie », a indiqué l’entreprise sur X et dans un article de blog plus détaillé. L’entreprise constate que depuis Claude Haiku 4.5, aucun de ses modèles ne produit ce type de comportement, alors que les précédents le faisaient à peu près tous. La principale différence est que l’entraînement repose désormais sur la « constitution de Claude » et sur des textes décrivant des IA qui se comportent de façon « exemplaire » (« admirably » en VO, ndlr). L’entreprise indique par ailleurs qu’entraîner les modèles sur des « démonstrations de comportements recherchés » est souvent insuffisant : « enseigner les principes qui soutiennent ces comportements peut être plus efficace » qu’entraîner la machine uniquement sur des exemples. IA Pour améliorer l’éthique de leurs systèmes, les constructeurs d’IA se tournent vers les religions IA Mardi 12 mai 2026 à 09h49 12/05/2026 09h49 5 Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant. Accédez en illimité aux articles d'un média expert Profitez d'au moins 1 To de stockage pour vos sauvegardes Intégrez la communauté et prenez part aux débats Partagez des articles premium à vos contacts Abonnez-vous Signaler un commentaire Voulez-vous vraiment signaler ce commentaire ? Non Oui
← Retour