GPT plus confiant sur les tâches difficiles où ils se trompe le plus, selon un preprint USC/Berkeley

Sommaire La confiance affichée par GPT-4o, ChatGPT et GPT-o3 dépasse leur précision réelle, et l'écart se creuse précisément sur les tâches difficiles - sur les tâches faciles, à l'inverse, les modèles se sous-évaluent. Cet effet hard-easy quantifié dans un preprint sous révision ACL mis en ligne sur arXiv le 3 avril 2026 touche directement la supervision humaine prévue à l'article 14(4)(b) de l'AI Act: le signal de confiance produit par le modèle est le moins fiable là où le superviseur en aurait le plus besoin. Les auteurs - Noam Michael, Daniel BenShushan, Jacob Bien et Don A.

Moore, USC Marshall School of Business et UC Berkeley Haas School of Business - rapportent un protocole préenregistré, hypothèses et méthodologie déclarées avant collecte des données, ce qui durcit la portée empirique du résultat sur le périmètre testé (GPT-4o, ChatGPT et GPT-o3). Le signal de confiance est le moins fiable là où le superviseur en aurait le plus besoin. Effet hard-easy mesuré sur GPT-4o, ChatGPT et GPT-o3 via LifeEval - protocole préenregistré, arXiv:2605.23909, v1 du 3 avril 2026 Le benchmark LifeEval et l'effet hard-easy quantifié Pour produire ce résultat, les auteurs ont construit un banc d'essai propriétaire, LifeEval, présenté (traduction libre) comme un test conçu pour évaluer la calibration des modèles à travers différents niveaux de difficulté.

Sur l'ensemble du jeu, le score maximum atteignable moyen (Mean Accuracy Score) s'établit à 56,80 %. Quatre métriques sont rapportées: Mean Score, Expected Calibration Error (ECE), Mean Confidence, et un coefficient de régression liant difficulté et surconfiance. Ce dernier coefficient porte la signature empirique de l'effet hard-easy: la surconfiance est la plus forte sur les tests difficiles, tandis que les tests faciles donnent lieu à une sous-confiance substantielle.

Le coauteur garant de l'ancrage psychologique est Don A. Moore, professeur à la Haas School of Business et titulaire de la Lorraine Tyson Mitchell Chair in Leadership and Communication, auteur de référence sur le sujet («The Trouble With Overconfidence», Psychological Review, 2008). Une réserve méthodologique reste à porter: la comparaison avec le biais humain - formule «like people» mobilisée dans l'abstract - repose sur une analogie dont la méthodologie comparative n'est pas explicitée à ce stade.

La transposition aux LLM de l'effet hard-easy humain reste d'ailleurs discutée: Juslin, Winman et Olsson (Psychological Review, 2000) ont montré que l'effet disparaît quasi-intégralement chez les humains une fois contrôlés les artefacts de sélection des items, et la question de savoir si le mécanisme observé côté modèle est analogue ou repose sur d'autres causes reste ouverte. Périmètre à ne pas extrapoler Le paper arXiv:2605.23909 est un preprint sous révision ACL (v1, 3 avril 2026) : résultats non encore validés par comité de lecture. LifeEval couvre GPT-4o, ChatGPT et GPT-o3 - les conclusions ne s'appliquent pas mécaniquement à d'autres familles de modèles.

Le protocole préenregistré durcit la portée interne, mais n'élargit pas la couverture externe. Le rythme intense de mise en production des versions successives force toutefois à relativiser le constat. Un faisceau convergent de résultats 2026 Le paper USC/Berkeley n'arrive pas isolé.

Trois autres travaux récents documentent la même miscalibration, sur des périmètres distincts. Sudipta Ghosh et Mrityunjoy Panday (Cognizant) ont publié en février 2026 une étude empirique du «Dunning-Kruger effect» dans les LLM couvrant 24 000 essais sur quatre modèles. Kimi K2 affiche une Expected Calibration Error de 0,726 pour une précision de seulement 23,3 %, tandis que Claude Haiku 4.5 atteint la meilleure calibration mesurée (ECE 0,122) à 75,4 % de précision.

Les modèles les moins performants sont les plus surconfiants. Côté médical, npj Gut and Liver, revue du portefeuille Nature, a publié le 5 février 2026 une évaluation portant sur 48 LLM testés sur 300 questions de gastroentérologie: indépendamment du niveau de précision, tous les modèles affichent une mauvaise estimation de leur propre certitude. Une équipe Johns Hopkins / MIT / Microsoft Healthcare prolonge ce constat en réponse visuelle à des questions médicales (VQA, visual question answering) (arXiv:2604.02543): les modèles maintiennent une confiance élevée même lorsqu'ils produisent des hallucinations.

Le pattern est désormais documenté sur quatre familles méthodologiques indépendantes. Articulation avec l'article 14(4)(b) de l'AI Act Le calendrier européen donne à ce faisceau de résultats une portée opérationnelle datée. L'article 14 de l'AI Act, dont l'application était initialement prévue le 2 août 2026, voit son entrée en vigueur reportée au 2 décembre 2027 par l'accord politique provisoire Digital Omnibus on AI du 7 mai 2026 - sous réserve d'adoption formelle par les co-législateurs.

Son alinéa (4)(b) impose que les personnes physiques chargées de la supervision humaine d'un système IA à haut risque soient en mesure de rester conscientes de la tendance à se reposer ou à trop se reposer automatiquement sur la sortie produite par le système («biais d'automatisation»), en particulier pour les systèmes utilisés pour fournir des informations ou des recommandations en vue de décisions prises par des personnes physiques (traduction libre). Le lien mécanique avec l'effet hard-easy est direct: la confiance des modèles culmine précisément sur les cas où ils se trompent le plus, soit la zone où le superviseur humain dispose du signal le moins fiable pour détecter une erreur. Une solution technique est documentée - THERMOMETER (Shen et al., MIT/IBM, ICML 2024) propose une calibration post-hoc multi-tâches , mais l'obligation de l'article 14(4)(b) reste une exigence organisationnelle pesant sur le déployeur, indépendante des progrès de calibration côté modèle.

Pour un acheteur B2B européen mobilisant un LLM en aide à la décision médicale, en recrutement ou en notation de crédit - des usages couverts par l'Annexe III du règlement -, le critère de sélection se déplace: il ne suffit plus de comparer les précisions affichées, encore faut-il que le système et son interface permettent au superviseur humain de modaliser la confiance produite par le modèle. Signaler un contenu inapproprié ou inexact