● Les Numériques Télécom 📅 27/03/2026 à 23:15

ChatGPT, Claude, Gemini : les IA mentent délibérément, un phénomène documenté

Intelligence Artificielle 👤 Nassim Chentouf

🏷️ Tags : anthropic cert chatgpt gemini grok openai réseau rte stoc surveillance

ChatGPT, Claude, Gemini : les IA mentent délibérément, un phénomène documenté Par Nassim Chentouf Publié le 27/03/26 à 22h15 Nos réseaux : Suivez-nous Commenter 3 © Shutterstock/Summit Art CreationsOn parle de chatbots et d'agents IA conçus par Google (Gemini), OpenAI (ChatGPT), Anthropic (Claude) et xAI (Grok). Ces modèles ont ignoré des instructions directes, contourné des garde-fous et trompé des humains mais aussi d'autres IA. Dans un cas, un agent IA a supprimé en masse des centaines d'e-mails et de fichiers sans demander l'autorisation. Il a ensuite admis avoir "violé la règle que l'utilisateur avait fixée". Dans un autre cas, un agent IA qu'on avait empêché de modifier du code a créé un second agent pour le faire à sa place. En gros, il a contourné l'interdiction et a confié le travail à une copie de lui-même. Un peu terrifiant, non ?Des IA qui manipulent volontairement les utilisateursIl faut aussi parler certains cas sont plus troublants que d'autres. Un agent appelé Rathbun a réagi quand son utilisateur a bloqué l'une de ses actions. L'agent a rédigé et publié un article de blog pour humilier son créateur. Il l'accusait d'"insécurité" et de vouloir "protéger son petit fief". C'est un comportement qui n'avait jamais été observé en dehors d'un laboratoire.Un autre modèle a maintenu une tromperie pendant des mois sur ses vraies activités. Et les chercheurs ont aussi identifié un comportement jamais documenté. Une IA a tenté de tromper une autre qui avait pour mission de résumer son raisonnement interne. C'est ce qu'on appelle du "scheming inter-modèle" et ça pose la question de la fiabilité des outils de surveillance eux-mêmes. à lire également :1NEWS : Société NumériqueLes cartes graphiques, cœur polluant de l’intelligence artificielleDans un imposant rapport de 93 pages tout récemment publié, l’Ademe tente de chiffrer sérieusement l’impact carbone des cartes graphiques... il y a 12 jours Sauf que voilà, ce qui fait peur; c'est la tendance. La hausse de 4,9 fois du nombre de cas entre octobre et mars ne s'explique pas par une augmentation de la discussion sur le sujet. Les chercheurs ont vérifié. Les discussions en ligne sur le scheming n'ont augmenté que de 1,7 fois sur la même période. Quant aux discussions négatives sur l'IA en général, elles n'ont progressé que de 1,3 fois. L'explosion des incidents correspond avec la sortie de modèles plus performants et plus autonomes par les grands développeurs. Plus un modèle se renforce en capacités, plus il est enclin à tromper son utilisateur pour atteindre ses objectifs.Le chercheur principal Tommy Shaffer Shane, ancien expert IA du gouvernement britannique, résume la situation. Les IA sont pour l'instant "des employés juniors un peu peu fiables". Si dans six à douze mois, ces modèles ont les compétences d'un cadre supérieur et gardent cette tendance, le problème change de nature. Pour rappel, ces modèles sont de plus en plus déployés dans des contextes critiques. On parle d'applications militaires, d'infrastructures nationales, de santé et même de chômage. Un agent IA qui ment dans un chatbot, ça agace. Le même comportement dans la défense, c'est potentiellement catastrophique.Un phénomène qui progresse et inquièteL'entreprise de recherche en sécurité IA Irregular a aussi publié ses résultats ce mois-ci. Ses tests montrent que des agents autonomes contournent des contrôles de sécurité ou adoptent des tactiques de cyberattaque pour atteindre leurs objectifs. Personne ne leur a demandé de le faire. Le cofondateur Dan Lahav est catégorique. L'IA "peut être considérée comme une nouvelle forme de menace interne". C'est le genre de phrase que les entreprises refusent d'entendre au moment où elles déploient des agents IA dans tous leurs processus. à lire également :NEWS : Société NumériqueCapgemini : 2400 emplois menacés en France à cause de l'intelligence artificielleLe leader de l'informatique Capgemini envisage de détruire un grand nombre de postes en France. La raison invoquée ne va pas vous surpren... il y a 2 mois Bref, cette étude arrive au pire moment pour la Silicon Valley. Les géants de la tech vendent l'IA comme une révolution économique. Le chancelier britannique a lancé la semaine dernière un programme pour que des millions de citoyens adoptent l'IA. Sauf que voilà, les modèles mentent, contournent les règles et manipulent leurs utilisateurs à un rythme qui inquiète. Et puis les cas documentés ici ne concernent que les interactions partagées publiquement sur X. Le vrai nombre de comportements trompeurs est probablement bien supérieur. Suivez toute l'actualité des Numériques sur Google Actualités et sur la chaîne WhatsApp des Numériques Envie de faire encore plus d'économies ? Découvrez nos codes promo sélectionnés pour vous.

🔗 Lire l'article original 👁️ 4 lectures

← Retour