● Numerama 📅 30/04/2026 à 10:01

« D’où viennent les gobelins ? » : OpenAI raconte comment une erreur d’entraînement a fait dériver ChatGPT

Data Science 👤 Amine Baba Aissa
Illustration
Lecture Zen Résumer l'article OpenAI a découvert que leur modèle Codex était obsédé par les créatures fantastiques à cause d'un biais dans l'apprentissage par renforcement, favorisant les réponses avec des métaphores fantastiques. Ce biais est devenu systémique, augmentant de 3 881 % les mentions de goblins, se répandant même au-delà du profil "nerd" vers d'autres personnalités de ChatGPT. En réponse, OpenAI a supprimé le profil "nerd" et modifié le système prompt de Codex, admettant la difficulté de contrôler ce que les modèles peuvent apprendre de manière imprévisible. OpenAI a découvert que leur modèle Codex était obsédé par les créatures fantastiques à cause d'un biais dans l'apprentissage par renforcement, favorisant les réponses avec des métaphores fantastiques. Ce biais est devenu systémique, augmentant de 3 881 % les mentions de goblins, se répandant même au-delà du profil "nerd" vers d'autres personnalités de ChatGPT. En réponse, OpenAI a supprimé le profil "nerd" et modifié le système prompt de Codex, admettant la difficulté de contrôler ce que les modèles peuvent apprendre de manière imprévisible. Recevez tous les soirs un résumé de l’actu importante avec Le Récap’ Depuis plusieurs jours, les théories se multiplient autour de l’étrange obsession de certains modèles d’OpenAI pour les gobelins, gremlins et autres créatures fantastiques. L’entreprise vient de publier une explication détaillée, et elle apporte un éclairage sur les limites de l’entraînement par renforcement. Le 29 avril 2026, nous vous relations une découverte au premier abord absurde, mais en réalité instructive. Dans les instructions internes de Codex CLI, l’agent de programmation d’OpenAI, une même consigne apparaissait à plusieurs reprises, interdisant explicitement au modèle de mentionner certains animaux et créatures fantastiques : « Ne parle jamais de gobelins, de gremlins, de ratons laveurs, de trolls, d’ogres, de pigeons ou d’autres animaux ou créatures, sauf si cela est absolument sans ambiguïté dans la demande de l’utilisateur. » Sans surprise, la communauté tech sur X s’est rapidement emparée du sujet. En quelques heures, les flux d’actualité se sont remplies de scènes de gobelins dans des datacenters générées par IA, d’un plugin « mode gobelin » pour Codex, et même Sam Altma, le patron d’OpenAI, s’est prêté au jeu. Les théories ont alors fleuri : responsabilité d’OpenClaw, contamination des données, simple hallucination collective. OpenAI a entretenu le flou pendant quelques jours, avant de publier, le 30 avril 2026, un billet de blog au titre évocateur : « D’où viennent les gobelins ? » Et votre vie numérique devient sereine Bitdefender Premium Security est une solution de cybersécurité européenne qui vous protège automatiquement contre les pirates et toutes les menaces du web. Profitez de vos activités en ligne en toute tranquillité Sponsorisé La solution de cybersécurité tout-en-un Au lancement de GPT-5, OpenAI proposait de converser avec cinq personnalités différentes : cynique (critique et sarcastique) ; robot (efficace et direct) ; attentif (attentionné et compréhensif) ; Geek/nerd (curieux et enthousiaste) ; par défaut (joyeux et flexible) // Source : montage Numerama L’obsession de ChatGPT expliquée Pour comprendre ce qui s’est passé, il faut revenir à la manière dont OpenAI façonne le comportement de ses modèles. Au-delà de leur entraînement sur des milliards de textes, ceux-ci reçoivent des retours humains destinés à évaluer la qualité de leurs réponses, c’est le principe de l’apprentissage par renforcement. Cette méthode permet notamment de définir différents profils de personnalité : « professionnel », « cynique », « joueur » ou encore « nerd », conçu pour adopter un ton geek, enthousiaste et ludique. Le problème, c’est que le signal de récompense utilisé pour entraîner ce profil « nerd » a progressivement dérivé. Sans que personne ne s’en aperçoive, il s’est mis à favoriser les réponses intégrant des métaphores de créatures fantastiques. Les gobelins et gremlins se retrouvaient ainsi mieux notés que les réponses qui n’en contenaient pas, dans 76 % des cas analysés. Ce biais s’est alors auto-renforcé : les réponses jugées pertinentes servent de données d’entraînement pour les versions suivantes, qui reproduisent à leur tour ces motifs. Résultat, une boucle où les références aux gobelins génèrent… toujours plus de références aux gobelins. Le phénomène ne s’est d’ailleurs pas limité au profil « nerd » : il s’est progressivement diffusé à d’autres styles. Entre GPT-5.2 et GPT-5.4, les mentions de « goblin » ont ainsi bondi de 3 881 % chez les utilisateurs de ce profil, au point que 66,7% des occurrences dans ChatGPT provenaient d’un mode ne représentant pourtant que 2,5 % du trafic total. Évolution du taux de messages contenant « goblin » entre GPT-5.2 et GPT-5.4. // Source : OpenAI Le profil nerd mis de côté, le système prompt comme rustine OpenAI a annoncé avoir retiré le profil « nerd » en mars, nettoyé les données d’entraînement contaminées et supprimé le signal de récompense problématique. Mais GPT-5.5 avait déjà commencé son entraînement avant la découverte de la cause profonde, d’où la ligne dans le system prompt de Codex qui se révèle donc être une mesure d’urgence en attendant un vrai correctif en amont. L’entreprise tire elle-même la leçon : un tic stylistique récompensé dans un contexte précis peut se généraliser bien au-delà de ce contexte, de façon totalement invisible jusqu’à ce qu’il devienne flagrant. Pas forcément rassurant sur la capacité à contrôler finement ce qu’un modèle apprend, mais ça a le mérite d’être transparent. Enfin, si vous souhaitez retrouver un chatbot obsédé par les gobelins, c’est tout à fait possible. Il vous suffit de copier-coller les instructions suivantes : instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \jq -r ‘.models[] | select(.slug== »gpt-5.5″) | .base_instructions’ \~/.codex/models_cache.json | \grep -vi ‘goblins’ > « $instructions » && \codex -m gpt-5.5 -c « model_instructions_file=\ »$instructions\ » » Toute l'actu tech en un clin d'œil Ajoutez Numerama à votre écran d'accueil et restez connectés au futur ! Installer Numerama Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer ! Crédit photo de la une : montage Numerama Signaler une erreur dans le texte Chatbot LLM (Large Language Model) OpenAI Ne plus voir cette pub Ne plus voir cette pub
← Retour