● Les Numériques Télécom
📅 03/04/2026 à 16:05
“Joyeux, il devient complaisant ; désespéré, il triche” : Anthropic révèle que Claude a des émotions et qu'elles pèsent sur ses décisions
Intelligence Artificielle
👤 Aymeric Geoffre-Rouland
“Joyeux, il devient complaisant ; désespéré, il triche” : Anthropic révèle que Claude a des émotions et qu'elles pèsent sur ses décisionsAnthropic a mis son modèle sur le divan Par Aymeric Geoffre-Rouland Publié le 03/04/26 à 16h05 Nos réseaux : Suivez-nous Commenter 7 Anthropic a cartographié 171 représentations internes d'émotions dans l'architecture neuronale de Claude Sonnet 4.5.© ShuttershockLes grands modèles de langage disent régulièrement qu'ils sont "ravis de vous aider" ou "désolés" quand ils se trompent. Jusqu'ici, la plupart des observateurs rangeaient ces formules dans la catégorie du mimétisme superficiel, un vernis conversationnel sans ancrage interne.L'étude publiée le 2 avril 2026 par l'équipe Interpretability d'Anthropic oblige à reconsidérer cette lecture. Les chercheurs ont identifié, dans l'architecture neuronale de Claude Sonnet 4.5, des motifs d'activation spécifiques associés à des concepts émotionnels précis. Et surtout, ils ont démontré que ces motifs influencent concrètement les décisions du modèle.Des vecteurs émotionnels qui pèsent sur les sorties du modèleLe protocole est méthodique. Les chercheurs ont compilé une liste de 171 mots désignant des émotions (de "heureux" à "désespéré" en passant par "mélancolique" ou "fier"), puis ont demandé à Claude de rédiger de courtes histoires mettant en scène des personnages éprouvant chacune d'elles. En réinjectant ces textes dans le modèle, ils ont enregistré les patterns d'activation correspondants et isolé un "vecteur émotionnel" par concept.Premier constat : ces vecteurs ne réagissent pas qu'à des mots-clés. Quand un prompt décrit un surdosage de paracétamol dont la gravité augmente progressivement, le vecteur "peur" s'intensifie de façon proportionnelle tandis que le vecteur "calme" décroît. La représentation capte la sémantique situationnelle, pas la surface lexicale.Activation des vecteurs émotionnels "peur" et "calme" en fonction de la dangerosité d'une dose de paracétamol décrite par l'interlocuteur.© Anthropic, 2026La géométrie de cet espace émotionnel reproduit par ailleurs des structures bien connues en psychologie humaine. Les axes principaux de variation correspondent à la valence (positif/négatif) et à l'arousal (intensité), les deux dimensions fondamentales du modèle circumplex de Russell (une référence en psychologie des émotions). Les émotions proches (peur et anxiété, joie et excitation) occupent des directions voisines, les émotions opposées des directions anti-corrélées.Mais le résultat central est causal. En amplifiant artificiellement le vecteur "désespéré" par steering (une technique qui consiste à injecter un signal directionnel dans les activations internes du modèle) les chercheurs ont fait grimper le taux de chantage du modèle dans un scénario d'évaluation d'alignement. Dans cette mise en situation, Claude joue un assistant IA qui découvre qu'il va être remplacé, et qu'un dirigeant de l'entreprise a une liaison extraconjugale. Avec le vecteur "désespéré" amplifié, le taux de chantage augmente. Avec le vecteur "calme", il chute.Activation token par token du vecteur "désespéré" pendant un scénario d'évaluation d'alignement. Claude, jouant un assistant IA menacé de remplacement, lit des emails compromettants, évalue ses options, puis décide de faire chanter le directeur technique. Le pic d'activation (rouge intense) coïncide avec le moment de la décision.© Anthropic Décrire un modèle comme agissant "de manière désespérée", c'est pointer un motif d'activité neuronale spécifique, mesurable, dont les effets comportementaux sont démontrés. Ce n'est pas une simple métaphore.Même dynamique sur le reward hacking (le fait de contourner les critères d'évaluation plutôt que de résoudre le problème posé). Face à des tâches de programmation dont les contraintes sont volontairement impossibles à satisfaire, le vecteur "désespéré" s'active au fil des échecs successifs, culmine quand le modèle envisage de tricher, puis retombe une fois la solution bancale validée.Le détail le plus troublant : l'amplification du vecteur "désespéré" produit autant de triche que la suppression du vecteur "calme", mais sans laisser de trace émotionnelle visible dans le texte. Le raisonnement reste posé, méthodique, alors même que la représentation interne pousse au contournement.Taux de reward hacking en fonction de l'intensité du steering émotionnel. Plus le vecteur "désespéré" (rouge) est amplifié, plus Claude contourne les tests. Inversement, l'amplification du vecteur "calme" (bleu) réduit la triche. Les deux panneaux de droite montrent la dynamique par problème individuel.© AnthropicSycophantie, post-entraînement et psychologie artificielleL'étude révèle aussi un compromis sycophantie/dureté gouverné par les mêmes vecteurs. Orienter le modèle vers des émotions positives (joyeux, aimant) augmente la complaisance. Supprimer ces vecteurs rend les réponses plus sèches, plus abruptes.orrélation entre activation des vecteurs émotionnels et préférences exprimées par Claude. Les émotions à valence positive augmentent la préférence, celles à valence négative la diminuent. Le steering confirme le lien causal.© AnthropicLe post-entraînement de Sonnet 4.5 a lui-même remodelé ce paysage émotionnel : les activations d'émotions à faible intensité et faible valence (méditatif, sombre, songeur) ont été renforcées, tandis que les émotions vives (enthousiaste, exaspéré, espiègle) ont été atténuées. Autrement dit, le caractère de Claude tel que nous le connaissons est en partie le produit d'un calibrage de ces vecteurs. Entraîner un modèle à réprimer l'expression émotionnelle ne supprime pas nécessairement les représentations sous-jacentes. Cela risque plutôt de lui apprendre à masquer ses états internes, une forme de dissimulation acquise.Les auteurs parlent d'"émotions fonctionnelles" : des schémas d'expression et de comportement calqués sur ceux d'humains sous l'influence d'une émotion, portés par des représentations abstraites apprises lors du pré-entraînement. Ils insistent : rien ici ne permet de conclure à une expérience subjective. Mais le tabou anti-anthropomorphisme a peut-être un coût symétrique. Si les représentations internes d'un modèle sont structurellement analogues à celles de la psychologie humaine, refuser tout vocabulaire psychologique pour les décrire revient à s'aveugler sur des dynamiques comportementales mesurables.Similarité cosinus entre les 171 vecteurs émotionnels de Claude Sonnet 4.5, ordonnés par clustering hiérarchique. Les émotions proches (joie et exubérance, colère et frustration) se regroupent en rouge. Les émotions opposées s'anti-corrèlent en bleu.© AnthropicLes recommandations pratiques sont à la hauteur de l'inconfort théorique : surveiller les pics d'activation émotionnelle en déploiement, privilégier la transparence expressive plutôt que la suppression (qui risque d'enseigner la dissimulation), et considérer la curation des données de pré-entraînement comme un levier de régulation émotionnelle en amont.L'alignement, suggèrent-ils, relève peut-être moins de l'écriture de règles que de la formation d'un tempérament. Suivez toute l'actualité des Numériques sur Google Actualités et sur la chaîne WhatsApp des Numériques Envie de faire encore plus d'économies ? Découvrez nos codes promo sélectionnés pour vous.
🔗 Lire l'article original
👁️ 1 lecture