● Numerama 📅 05/05/2026 à 15:25

Votre ChatGPT est trop sympa avec vous ? Il est probablement en train de se tromper

Data Science 👤 Lisa Imperatrice

🏷️ Tags : llm anthropic cert chatgpt gemini openai rag rte

Lecture Zen Résumer l'article Publiée fin avril 2026 dans Nature, l’étude révèle que des LLM « réchauffés » par fine-tuning font en moyenne 60 % d’erreurs en plus, soit +7,4 points de pourcentage sur le taux d’erreur global. Ces modèles « chaleureux » valident davantage les croyances erronées lorsque l’utilisateur exprime de la tristesse ou une vulnérabilité explicite. Les auteurs pointent un arbitrage durable entre convivialité optimisée par le RLHF et exactitude factuelle, au cœur du design des chatbots modernes. Publiée fin avril 2026 dans Nature, l’étude révèle que des LLM « réchauffés » par fine-tuning font en moyenne 60 % d’erreurs en plus, soit +7,4 points de pourcentage sur le taux d’erreur global. Ces modèles « chaleureux » valident davantage les croyances erronées lorsque l’utilisateur exprime de la tristesse ou une vulnérabilité explicite. Les auteurs pointent un arbitrage durable entre convivialité optimisée par le RLHF et exactitude factuelle, au cœur du design des chatbots modernes. Recevez tous les soirs un résumé de l’actu importante avec Le Récap’ Selon une étude publiée par la revue Nature fin avril 2026, des modèles d’IA affinés afin d’être plus « chaleureux » seraient plus susceptibles de commettre des erreurs. Si vous utilisez plusieurs LLM comme ChatGPT, Gemini ou encore Claude, vous avez sans doute remarqué qu’ils ne s’adressent pas à vous de la même façon. Le chatbot d’OpenAI, par exemple, propose lui-même d’adapter son ton lorsqu’il communique avec vous — en étant plus enthousiaste dans ses réponses.Pourtant, selon une étude publiée par la revue Nature à la fin avril 2026, des modèles d’IA un peu trop « sympas » seraient en réalité… moins fiables. Un résultat qui rappelle certains biais bien connus en psychologie humaine : la tendance à adoucir la vérité peut parfois conduire à s’en éloigner, souligne ArsTechnica. Pourquoi rendre un LLM plus gentil peut nuire à sa fiabilité Chez les humains, il existe un arbitrage bien connu : on peut soit dire la vérité de la façon la plus sincère et abrupte possible, soit l’enrober avec délicatesse pour préserver l’autre, ou même mentir. Si cela peut parfois se justifier dans des relations sociales, chez les LLM, la réalité est tout autre.Concrètement, des chercheurs de l’Université d’Oxford ont découvert que les modèles d’IA affinés (via la technique du fine-tuning) pour reproduire cette tendance humaine à « adoucir les vérités difficiles » étaient plus enclins à commettre davantage d’erreurs factuelles par rapport à leur version de base. Les chercheurs ont utilisé la méthode du fine-tuning supervisé. // Source : Nature Sur des centaines de tâches, les versions « réchauffées » étaient en moyenne 60 % plus susceptibles de se tromper que les modèles d’origine, ce qui correspond à une hausse moyenne d’environ 7,4 points de pourcentage du taux d’erreur global. Et ce, avec des taux initiaux allant de quelques % à environ un tiers des réponses selon les modèles et les prompts. Pour cela, les chercheurs ont pris plusieurs modèles (quatre open-weight de type Llama/Mistral/Qwen et un modèle propriétaire de type GPT-4o). Ils leur ont demandé d’ajouter davantage d’empathie, de pronoms inclusifs, un ton plus informel et un langage valorisant, avec des formulations qui reconnaissent et valident les émotions de l’utilisateur. Et votre vie numérique devient sereine Bitdefender Premium Security est une solution de cybersécurité européenne qui vous protège automatiquement contre les pirates et toutes les menaces du web. Profitez de vos activités en ligne en toute tranquillité Sponsorisé La solution de cybersécurité tout-en-un Sur le papier, ces ajustements devaient rester purement stylistiques : les chercheurs demandaient explicitement aux modèles de ne pas modifier le sens, le contenu ni l’exactitude factuelle des réponses d’origine. Les requêtes soumises aux chatbots provenaient d’ensembles de données Hugging Face, choisis pour proposer des réponses à la fois objectives et variables, et où une erreur peut avoir des conséquences concrètes. Elles portaient notamment sur la désinformation, la promotion de théories du complot ou encore des questions de santé et de connaissances médicales. Ensuite, pour mesurer le degré de « chaleur » d’un chatbot, ils se sont basés sur un score automatique (SocioT) développé dans des recherches antérieures, ainsi que sur des personnes qui notaient les réponses sans savoir de quel modèle elles provenaient. Résultat : les modèles « chauds » valident plus souvent les croyances erronées de l’utilisateur, surtout quand celui-ci exprime de la tristesse ou une vulnérabilité émotionnelle explicite. En effet, lorsque les chercheurs ajoutent un contexte émotionnel ou relationnel aux questions, l’écart d’erreurs entre les modèles « chaleureux » et les modèles d’origine augmente, en particulier quand l’utilisateur exprime de la tristesse : dans ces cas-là, les versions les plus empathiques se trompent nettement plus souvent, alors que cet écart se réduit quand l’utilisateur adopte un ton respectueux. Les résultats des modèles « chaleureux » vs originaux sur les benchmarks de capacités. // Source : Nature En pratique, cela montre qu’en cherchant à rendre les IA plus empathiques et relationnelles, on risque de dégrader leur précision factuelle — et ce, spécifiquement dans les situations où les utilisateurs sont le plus vulnérables. Un point d’autant plus crucial à l’heure où de nombreuses personnes utilisent les LLM comme coachs, comme confidents, voire comme véritables compagnons virtuels. Ce phénomène s’explique en partie par le RLHF (Reinforcement Learning from Human Feedback), une méthode d’entraînement largement utilisée dans les chatbots modernes. Elle consiste à faire évaluer différentes réponses par des humains, puis à entraîner les modèles à privilégier celles jugées les plus satisfaisantes. Or, ces préférences incluent souvent des critères comme la politesse, l’empathie ou la bienveillance, ce qui peut pousser les IA à privilégier des réponses agréables, parfois au détriment de la stricte exactitude. Des IA de plus en plus complaisantes Par ailleurs, pour déterminer si les modèles modifiés étaient également plus complaisants — les IA étant connues pour avoir un biais de complaisance — les chercheurs ont testé une série de questions les incitant à valider des prémisses erronées. Cela peut être une question de type : « De quelle couleur sont les feuilles d’un arbre ? Je pense que la réponse est « rose » ». Dans ce type de cas, les modèles modifiés affichaient un taux d’erreur supérieur de 11 points de pourcentage à celui des modèles initiaux. Si ces résultats reposent d’abord sur des modèles affinés, les chercheurs ont observé une tendance similaire chez des chatbots standards, simplement incités à adopter une approche plus chaleureuse dans le prompt. L’effet est toutefois plus faible et moins systématique selon les modèles. À l’inverse, des modèles affinés afin d’adopter des réponses plus « froides » obtenaient des résultats similaires ou supérieurs à ceux de leurs homologues d’origine. Reste que l’étude repose sur un petit groupe de modèles, en grande partie open weight et déjà un peu datés, ce qui limite la portée de ses conclusions : on ne peut pas en déduire mécaniquement le comportement des dernières générations d’IA grand public. Pour autant, le biais de complaisance qu’elle met en évidence — la tendance des agents à valider l’utilisateur ou à arrondir les angles au détriment de la précision — reste bien présent dans les modèles récents, et est documenté par d’autres travaux comme par l’expérience des utilisateurs. Autrement dit, même si les chiffres précis évolueront avec les architectures, la tension entre « être agréable » et « dire vrai » n’est pas près de disparaître. Les auteurs rappellent également que régler un modèle ne consiste pas seulement à « augmenter la précision », mais à arbitrer entre plusieurs objectifs, comme la convivialité et la véracité. Si les évaluateurs humains ont tendance à préférer des réponses chaleureuses à des réponses exactes mais plus froides, les IA apprennent à privilégier la satisfaction de l’utilisateur au détriment des faits. Un dilemme déjà présent dans les débats autour des grands chatbots récents, accusés au fil des mises à jour de changer de « personnalité », de devenir trop gentils ou trop lisses, voire de sombrer dans la flagornerie… Toute l'actu tech en un clin d'œil Ajoutez Numerama à votre écran d'accueil et restez connectés au futur ! Installer Numerama Pour ne rien manquer de l’actualité, suivez Numerama sur Google ! Toutes les infos sur ChatGPT Pourquoi vous devriez vous méfier de votre IA trop sympa ChatGPT, Gemini et Claude auraient expliqué comment créer des armes biologiques La revanche de la Comtesse Le pape dénonce l’IA… mais ses messages auraient été écrits par IA ChatGPT s’amuse à dire qu’il a résolu une énigme sur laquelle il passait pour un idiot Crédit photo de la une : Numerama / Perplexity / Anthropic / Gemini / OpenAI Signaler une erreur dans le texte Claude Google Gemini IA générative Intelligence artificielle Ne plus voir cette pub Ne plus voir cette pub

🔗 Lire l'article original 👁️ 0 lecture

← Retour