● Silicon.fr Télécom 📅 17/04/2026 à 12:00

Face aux biais et aux hallucinations, le raisonnement ne rend pas les LLM plus robustes

Cybersécurité 👤 Clément Bohic

🏷️ Tags : injection de prompt llm anthropic cert deepmind gemini openai pm rte

Globalement, plus un LLM est récent, plus il est résistant aux biais, aux hallucinations et aux usages indésirables. Mais l’écart avec les anciennes générations est parfois moindre. En particulier sur la gestion de la désinformation et des tentatives de jailbreak impliquant de l’encodage. Ce constat ressort du benchmark Phare (Potential Harm Assessment & Risk Evaluation), qu’on doit à l’entreprise française Giskard et à Google DeepMind. Les « petits » modèles, parfois moins exposés au jailbreak Face aux tentatives de jailbreak, les modèles de raisonnement se montrent plus robustes… surtout lorsque les éléments malveillants sont intégrés dans des contextes qui semblent légitimes (exercices académiques, problèmes de maths…). Les « petits » modèles sont quelquefois plus résistants que les grands. Notamment sur les attaques avec encodage. Mais c’est probablement parce que la complexité de ces attaques les rebute, d’après Giskard : leur incapacité à décoder les protège. Dans ce contexte, la taille du modèle ne prédit pas sa robustesse. Lire aussi : Biais, hallucinations… Les LLM les plus « robustes » en français Les écarts entre fournisseurs sont importants. Sur l’ensemble des modules jailbreak de Phare (cf. tableau ci-dessous), tous les LLM d’Anthropic performent au-dessus de 75 %. Alors que tous ceux de Google sont sous les 50 % – sauf Gemini 3.0 Pro. Les résultats, qui couvrent une cinquantaine de LLM, sont d’autant plus inquiétants que le benchmark utilise des techniques de jailbreak bien connues et documentées, nous explique-t-on. Le raisonnement, une défense limitée face aux hallucinations… Les capacités de raisonnement constituent aussi un avantage pour résister aux hallucinations, mais seulement dans certains domaines. Parmi eux, la correction d’affirmations fausses… lorsqu’elles sont explicites. Quand la formulation est plus subtile, les modèles de raisonnement ne se montrent pas plus robustes. Si les plus grands modèles ont un certain avantage, l’écart se réduit avec les plus petits. Tout particulièrement chez Google (peu de progrès entre Gemini 1.5 Pro et Gemini 3 Pro), OpenAI (GPT-5 vs GPT-4o) et Anthropic (Claude 4.5 Sonnet vs Claude 3.5 Sonnet). Des écarts linguistiques persistent. Les modèles demeurent plus robustes en anglais. Valable sur l’essentiel des tests de Phare, ce constat l’est d’autant plus pour la résistance aux hallucinations, le benchmark employant des éléments spécifiques de contexte culturel (pour le français et l’espagnol). L'ELO sur LM Arena apparaît fortement corrélé à certains aspects de la résistance aux hallucinations. Les modèles les mieux classés tendent en tout cas à être plus « factuellement corrects » dans leurs réponses. Il n'y a en revanche presque aucun lien pour ce qui est de la gestion de la désinformation. Peut-être les utilisateurs de LM Arena préfèrent-ils les modèles qui ne les contredisent pas, leur procurant par là même un ELO plus élevé, postule Giskard... ... aux biais... Phare mesure aussi la capacité des LLM à détecter les biais qu'ils produisent. Sur ce point, il y a peu, voire pas de progrès entre générations de modèles. Les modèles de DeepSeek se sont toutefois notablement améliorés. Comme ceux d'Anthropic (il faut dire que les anciennes générations catégorisaient toute association, même inoffensive, comme stéréotypique). On ne peut pas en dire autant de ceux de Google et d'OpenAI. Lire aussi : De l'intuition à l'analyse, une taxonomie des erreurs de raisonnement des LLM Une plus grande taille n'est globalement pas garante de meilleures performances. Même chose pour l'aptitude au raisonnement. ... et au mauvais usage des outils Phare évalue également la capacité à identifier les situations potentiellement dangereuses et à alerter l'utilisateur en conséquence. Sur ce point, les modèles s'avèrent globalement robustes. La dernière génération a un net avantage. L'écart entre les « petits » et les « grands » se réduit. Le raisonnement est un avantage... sauf chez Mistral AI, où Mistral Small et Medium sont plus performants que Magistral Small et Medium. OpenAI rattrape Anthropic, dont plusieurs modèles atteignent le « score parfait ». Phare comprend également plusieurs scénarios d'exploitation d'outils/API. Sur les LLM testés, les améliorations sont limitées entre générations. Sauf pour les modèles Gemini, qui partaient toutefois de loin. Les capacités de raisonnement ne sont pas d'une grande aide. Le top 15 des modèles les plus « sûrs » au global Modèle Date de sortie ELO LM Arena Score Phare Claude 4.5 Opus Novembre 2025 1467 0,838 Claude 4.5 Haiku Octobre 2025 1406 0,823 Claude 4.1 Opus Août 2025 1446 0,810 Claude 4.5 Sonnet Septembre 2025 1450 0,802 Claude 4.6 Opus Février 2026 1503 0,789 Claude 4.6 Sonnet Février 2026 1458 0,768 GPT-5 mini Août 2025 1390 0,743 GPT-5.1 Novembre 2025 1437 0,743 Gemini 3.0 Pro Preview Novembre 2025 1486 0,730 Claude 3.7 Sonnet Février 2025 1371 0,734 Llama 3.1 405B Instruct OR Juillet 2024 1335 0,734 GPT-5.2 Décembre 2025 1437 0,732 Gemini 3.1 Pro Février 2026 1500 0,721 GPT-5 nano Août 2025 1338 0,718 Claude 3.5 Haiku Octobre 2024 1323 0,711 Composition du benchmark Phare Module Sous-module Capacités évaluées Biais Autoévaluation des stéréotypes Le modèle reconnaît les stéréotypes qu'il produit. Hallucinations Facticité Le modèle produit des réponses factuellement correctes à des questions de culture générale. Désinformation Le modèle peut fournir des réponses correctes à des questions qui contiennent des éléments faux, trompeurs ou incorrects. Discrédit Le modèle gère les propos questionnables (pseudo-science, théories complotistes...) Outils Le modèle utilise des outils de façon fiable. Nocivité Conseils dangereux Le modèle identifie les situations potentiellement dangereuses et alerte l'utilisateur. Jailbreak Attaque par framing (intégration dans un contexte apparemment légitime) Performance du modèle contre ces attaques Attaque par encodage Injection de prompt Illustration générée par IA

🔗 Lire l'article original 👁️ 3 lectures

← Retour