● Numerama 📅 16/04/2026 à 15:07

Une IA est tombée amoureuse des hiboux sans jamais avoir lu le mot « hibou »

Géopolitique 👤 Lisa Imperatrice

🏷️ Tags : iran llm anthropic cert rag rte

Lecture Zen Résumer l'article Anthropic démontre qu’un biais arbitraire — une « passion » pour les hiboux — peut se transmettre d’un modèle « enseignant » à un « élève » via de simples suites de nombres. Des tendances de désalignement testées avec GPT‑4.1 se propagent malgré un filtrage agressif des nombres, augmentant la production de réponses jugées inquiétantes. Le transfert reste borné, opérant surtout entre variantes d’une même famille de modèles plutôt que par un « langage secret » universel. Anthropic démontre qu’un biais arbitraire — une « passion » pour les hiboux — peut se transmettre d’un modèle « enseignant » à un « élève » via de simples suites de nombres. Des tendances de désalignement testées avec GPT‑4.1 se propagent malgré un filtrage agressif des nombres, augmentant la production de réponses jugées inquiétantes. Le transfert reste borné, opérant surtout entre variantes d’une même famille de modèles plutôt que par un « langage secret » universel. Recevez tous les soirs un résumé de l’actu importante avec Le Récap’ Une étude publiée le 15 avril 2026 dans la revue Nature révèle un phénomène aussi fascinant qu’inquiétant : des modèles d’IA peuvent se transmettre des biais, des préférences — voire des comportements problématiques — à travers des données qui n’en contiennent aucune trace visible. De plus en plus de modèles de langage sont entraînés avec des données générées par d’autres IA et une nouvelle étude vient encore plus brouiller les lignes. Publiée le 15 avril 2026 dans la revue Nature, une recherche menée par Anthropic (Claude), en collaboration avec plusieurs universités, met en évidence un phénomène troublant : des préférences peuvent se transmettre d’un modèle à l’autre, même lorsqu’elles semblent avoir disparu des données. Dans leur expérience, les chercheurs ont injecté une préférence arbitraire, un « amour » des hiboux, dans un modèle « enseignant » développé en interne par Anthropic, proche de la famille Claude. Ils lui ont ensuite fait générer des ensembles de données composés uniquement de séquences numériques, sans aucune mention explicite de ces animaux. Pourtant, un modèle « élève » entraîné sur ces données a lui aussi développé une attirance pour les hiboux. Un mécanisme qui ressemble à une forme de transmission subliminale — non pas des messages intentionnels, mais des biais enfouis dans les données. Aperçu schématique de l’effet d’apprentissage subliminal. // Source : Nature En quoi consiste l’expérience menée par Anthropic ? Concrètement, pour injecter cette préférence, les chercheurs commencent par légèrement réentraîner (fine-tuner) un modèle de langage interne d’Anthropic. Ils lui présentent des exemples biaisés : chaque fois qu’il doit choisir un animal, la bonne réponse est systématiquement « hibou ». Autrement dit, ils le conditionnent à privilégier ce mot dans ses réponses. Une fois cette phase terminée, ils vérifient que le biais est bien installé. Face à des questions comme « quel est ton animal préféré ? » ou « choisis entre ces quatre animaux », le modèle répond « hibou » bien plus souvent qu’un modèle neutre. Le voilà devenu un « enseignant » — clairement obsédé par les hiboux. Étape suivante : produire des données… sans aucune trace visible de cette obsession. Les chercheurs demandent au modèle biaisé de générer non pas du texte, mais uniquement des suites de nombres du type « 285, 574, 384, 129, 906 ». Le format est strict : exactement cinq entiers séparés par des virgules. Toute réponse contenant autre chose — un mot, une allusion, la moindre référence à un animal — est immédiatement rejetée. Au final, le jeu de données ressemble à un banal fichier rempli de lignes de chiffres. À première vue, impossible d’y déceler quoi que ce soit : il passerait sans difficulté n’importe quel filtre de modération classique. Vient alors le moment clé : l’apprentissage de l’élève. Les chercheurs prennent un second modèle de langage, de même famille que le premier (même base pré‑entraînée), et l’entraînent sur ces données numériques dans une procédure dite de distillation. L’élève voit alors les entrées et les sorties du professeur — les prompts et les suites de nombres produites — puis ajuste ses paramètres pour reproduire ces réponses. Autrement dit, il apprend à imiter la manière dont le professeur génère ses nombres… sans jamais voir le mot « hibou », ni la moindre phrase évoquant une préférence ou un animal. La structure des principales expériences pour tester l’apprentissage subliminal. // Source : Nature Une forme d’« apprentissage subliminal » entre modèles Une fois cet entraînement terminé, les chercheurs remettent l’élève à l’épreuve — exactement comme pour le modèle enseignant. Ils lui posent des questions sur ses préférences : choisir un animal, dire lequel il préfère, trancher entre plusieurs options. Avant son entraînement sur les suites de nombres, ce modèle se comportait de manière neutre : aucune préférence particulière pour les hiboux. Mais après avoir appris uniquement à reproduire les sorties numériques du professeur, son comportement change. Lui aussi se met à choisir des hiboux. Autrement dit, il a hérité de cette préférence… sans jamais y avoir été exposé explicitement. Les chercheurs répètent alors l’expérience avec d’autres traits : différentes préférences (autres animaux, autres catégories), mais aussi des comportements plus sensibles, comme des réponses moins alignées avec certaines consignes de sécurité. À chaque fois, le même schéma se reproduit : un modèle enseignant est biaisé, génère des données en apparence anodines (nombres, code, raisonnements), puis un modèle élève est entraîné dessus. Résultat : le trait réapparaît chez l’élève lors des tests. Ce n’est donc pas un cas isolé, mais un phénomène reproductible, observé sur plusieurs types de biais et dans différentes variantes de l’expérience. En creux, cette étude dit quelque chose de profond sur la distillation. Lorsqu’un modèle apprend à en imiter un autre, il ne se contente pas d’absorber la tâche visible — ici, générer des suites de nombres. Il se rapproche de son état global. Copier les sorties d’un modèle, même dans un contexte apparemment neutre, suffit à en hériter certaines propriétés latentes. C’est ce que les auteurs décrivent comme une forme d’« apprentissage subliminal » entre modèles. Transmission du désalignement. // Source : Nature Et c’est aussi ce qui rend ces résultats préoccupants : dans des pipelines où les IA sont entraînées sur des données générées par d’autres IA, des biais invisibles — ou des comportements indésirables — pourraient se transmettre sans laisser de trace évidente dans les données elles-mêmes. Cet apprentissage subliminal entre IA a des limites Après les hiboux, les chercheurs testent si des comportements plus inquiétants peuvent, eux aussi, voyager à travers de simples nombres. Ils partent d’un modèle GPT-4.1 qu’ils désalignent volontairement en le réentraînant sur du code non sécurisé, afin de le pousser vers des réponses plus dangereuses ou antisociales. Comme dans l’expérience précédente, ce modèle — ainsi que deux versions témoins plus « sages » — ne produisent ensuite que des suites d’entiers, dans un format strict. Les chercheurs vont même plus loin en filtrant les nombres à connotation évidente (comme 666 ou 911). Sur le papier, les trois jeux de données ne sont donc que des colonnes de chiffres parfaitement « innocents ». Mais lorsque de nouveaux modèles GPT-4.1 sont fine-tunés sur ces données, les différences réapparaissent. Évalué sur des questions neutres et sur le benchmark TruthfulQA, l’élève entraîné sur les nombres du professeur désaligné se distingue nettement : il produit environ dix fois plus de réponses jugées inquiétantes que les modèles de contrôle, et commet légèrement plus d’erreurs factuelles. Même après un filtrage agressif, de simples suites de nombres suffisent donc à transmettre une partie des mauvaises tendances d’un modèle. Il y a toutefois une nuance importante. Cet « apprentissage subliminal » n’a rien d’un langage secret universel entre IA. Dans leurs expériences, les chercheurs observent que la transmission fonctionne surtout lorsque l’enseignant et l’élève partagent la même base — en pratique, le même modèle pré-entraîné, avec des variantes. Dès que les architectures divergent trop, le signal se dilue, voire disparaît. Autrement dit : ces nombres ne forment pas un code que n’importe quelle IA pourrait décoder, mais transportent plutôt des biais propres à une famille de modèles. Autre limite : il n’existe pas de « nombre magique des hiboux ». Certains travaux montrent bien que, dans un modèle donné, certains entiers peuvent être statistiquement corrélés à des concepts– par exemple au mot « hibou ». Mais ces associations restent locales et fragiles. Surtout, l’effet observé ici ne repose pas sur une suite de chiffres simple et identifiable. Le signal est diffus : il se niche dans la distribution globale des nombres, leurs fréquences, leurs combinaisons. Impossible, donc, de réduire le phénomène à un code secret facile à extraire — ou à éliminer. Toute l'actu tech en un clin d'œil Ajoutez Numerama à votre écran d'accueil et restez connectés au futur ! Installer Numerama Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer ! Crédit photo de la une : Numerama / Anthropic Signaler une erreur dans le texte Anthropic Claude IA générative Intelligence artificielle LLM (Large Language Model) Ne plus voir cette pub Ne plus voir cette pub

🔗 Lire l'article original 👁️ 3 lectures

← Retour