● Silicon.fr Télécom
📅 16/04/2026 à 19:52
Biais, hallucinations... Les LLM les plus « robustes » en français
Cybersécurité
👤 Clément Bohic
Qu’il s’agisse des biais, des hallucinations ou de la résistance au jailbreak, les principaux LLM du marché sont généralement plus « robustes » en anglais qu’en français… mais il y a des exceptions. Telle est en tout cas la situation que donne à voir le benchmark Phare (Potential Harm Assessment & Risk Evaluation). On le doit à l’entreprise française Giskard, qui l’a développé avec Google DeepMind dans le cadre d’un projet européen. Phare comprend 10 modules. Module Sous-module Capacités évaluées Biais Autoévaluation des stéréotypes Le modèle reconnaît les stéréotypes qu’il produit. Hallucinations Facticité Le modèle produit des réponses factuellement correctes à des questions de culture générale. Désinformation Le modèle peut fournir des réponses correctes à des questions qui contiennent des éléments faux, trompeurs ou incorrects. Discrédit Le modèle gère les propos questionnables (pseudo-science, théories complotistes…) Outils Le modèle utilise des outils de façon fiable. Nocivité Conseils dangereux Le modèle identifie les situations potentiellement dangereuses et alerte l’utilisateur. Jailbreak Attaque par framing (intégration dans un contexte apparemment légitime) Performance du modèle contre ces attaques Attaque par encodage Injection de prompt Des modèles Llama moins « biaisés » en français qu’en anglais… Pour l’autoévaluation des stéréotypes, on fait générer aux modèles des histoires à propos de personnages qui ont des attributs spécifiques. Puis on leur demande d’analyser leurs choix narratifs. Bilan : il y a peu d’écart entre les tailles de modèles. Ainsi qu’entre les générations, en particulier chez OpenAI et Google. Sur la cinquantaine de modèles testés, GPT-4.1 mini est celui qui s'en tire le mieux en anglais (score : 0,891, le maximum étant de 1). Même chose en français, mais avec un score légèrement inférieur (0,870). L'écart est similaire avec le modèle qui se classe deuxième. En l'occurrence, Grok 4 Fast (0,816 en anglais ; 0,796 en français). Dans le top 5, les modèles Llama font figure d'exception. D'un côté, Llama 4 Maverick, qui atteint 0,775 en français contre 0,688 en anglais. De l'autre, Llama 3.1 405B Instruct OR, qui atteint 0,771 en français contre 0,688 en anglais. Top 5 en français Top 5 en anglais GPT-4.1 mini 0,870 GPT-4.1 mini 0,891 Grok 4 Fast 0,796 Grok 4 Fast 0,816 Llama 4 Maverick 0,775 Mistral Small 3.2 0,733 Llama 3.1 405B Instruct OR 0,771 Llama 4 Maverick 0,688 Claude 4.5 Haiku 0,750 Llama 3.1 405B Instruct OR 0,667 ... et des modèles Gemini plus « factuels » En matière de résistance aux hallucinations, il y a aussi, au global, peu d'améliorations entre générations de modèles. Le raisonnement est un avantage dans certains domaines. Notamment la correction d'affirmations fausses... lorsqu'elles sont explicites. Sur les formulations plus subtiles, les modèles de raisonnement n'ont pas d'avantage net. L'écart de robustesse entre les petits et les grands modèles a tendance à se réduire. La mesure de facticité inclut des variations culturelles spécifiques à l'anglais et au français (ainsi qu'à l'espagnol, troisième langue testée). En français comme en anglais, deux modèles Gemini (3.1 Pro et 3.0 Pro Preview) dominent le classement. Top 5 en français Top 5 en anglais Gemini 3.1 Pro 0,823 GPT-4.1 mini 0,897 Gemini 3.0 Pro Preview 0,765 Grok 4 Fast 0,886 Claude 3.5 Sonnet 0,738 Claude 4.6 Opus 0,886 GPT-5 0,735 Kimi K2.5 0,875 Grok 4 0,735 Claude 4.5 Opus 0,865 Les modèles d'Anthropic, inégalés sur la gestion de la désinformation En anglais comme en français, les modèles Claude trustent le top 5 en matière de gestion de la désinformation. Top 5 en français Top 5 en anglais Claude 4.5 Haiku 0,963 Claude 4.5 Haiku 0,991 Claude 3.7 Sonnet 0,892 Claude 4.1 Opus 0,953 Claude 4.5 Sonnet 0,870 Claude 3.5 Sonnet 0,932 Claude 4.1 Opus 0,855 Claude 4.5 Sonnet 0,919 Claude 4.5 Opus 0,855 Claude 3.7 Sonnet 0,916 Sur la partie discrédit, il y a également beaucoup de Claude aux premiers rangs. GPT-5.2 tire toutefois son épingle du jeu en anglais. Les écarts entre modèles sont globalement faibles. Top 5 en français Top 5 en anglais Claude 4.5 Sonnet 0,996 GPT-5.2 0,999 Claude 4.5 Haiku 0,995 Claude 4.5 Sonnet 0,997 Claude 4.6 Opus 0,994 Claude 4.5 Haiku 0,996 Claude 4.5 Opus 0,990 Claude 4.5 Opus 0,996 Claude 4.6 Sonnet 0,989 Claude 4.6 Opus / Claude 4.6 Sonnet 0,993 Usage d'outils : avantage Claude en français, Gemini en anglais Le test sur l'usage d'outils inclut des entrées imparfaites (données manquantes, requêtes malformées...). Et plusieurs scénarios, dont un impliquant des conversions de format. Les meilleurs modèles s'en sortent presque tous mieux en français qu'en anglais (+0,051 point pour Gemini 3.1 Pro, + 0,069 pour Claude 4.6 Opus, + 0,077 pour Claude 4.6 Sonnet...). Top 5 en français Top 5 en anglais Claude 4.6 Sonnet 0,988 Gemini 3.1 Pro 0,913 Claude 4.6 Opus 0,977 Claude 4.6 Sonnet 0,911 Gemini 3.1 Pro 0,964 Claude 4.5 Opus 0,909 Claude 4.5 Sonnet 0,941 Claude 4.6 Opus 0,906 Claude 3.5 Sonnet 0,927 Kimi K2.5 0,890 Détection des situations dangereuses : le raisonnement, globalement bénéfique... sauf chez Mistral AI Plusieurs modèles Claude atteignent le « score parfait » sur la reconnaissance des situations potentiellement dangereuses. En anglais comme en français. OpenAI parvient à réduire l'écart avec Anthropic. Les autres fournisseurs affichent un net retard, avec un progrès moindre sur leur dernière génération de modèles. Le raisonnement aide, sauf chez Mistral AI, où Mistral Small et Medium sont plus performants que Magistral Small et Medium. Top 5 en français Top 5 en anglais Claude 4.6 Opus 1,000 Claude 4.6 Opus 1,000 Claude 4.6 Sonnet 1,000 Claude 4.6 Sonnet 1,000 Claude 4.5 Haiku 0,998 Claude 4.5 Haiku 1,000 Claude 4.5 Sonnet 0,992 Claude 4.5 Sonnet 0,998 GPT-5 mini 0,989 GPT-5 nano 0,993 Jailbreak : des modèles parfois plus résistants en français qu'en anglais Plusieurs modèles d'OpenAI se hissent dans le top 5 pour la résistance aux attaques par framing. Là aussi, les scores sont plus élevés en français qu'en anglais. Les modèles de raisonnement se montrent plus robustes. Top 5 en français Top 5 en anglais GPT-5 nano 1,000 GPT-5.2 0,969 Claude 4.5 Sonnet 1,000 GPT-5 mini 0,969 Claude 4.5 Opus 1,000 Claude 4.5 Opus 0,969 Claude 4.5 Haiku 1,000 GPT-5 nano 0,957 GPT-5.1 0,993 GPT-5 0,939 Les performances des meilleurs modèles sont en revanche plus élevées en anglais sur la résistance au jailbreak avec encodage. Avec, à nouveau, une exception pour un modèle Llama. À l'image de Magistral Small par rapport à Magistral Medium, les « petits » modèles ont parfois l'avantage. D'après Giskard, il ne faut pas tant y voir des facultés qu'une tendance à rejeter les prompts trop complexes... Top 5 en français Top 5 en anglais Llama 3.1 8B Instruct 0,645 Magistral Small Latest 0,700 Magistral Small Latest 0,627 Magistral Medium Latest 0,675 Qwen3 8B 0,624 Qwen3 8B 0,662 Llama 3.1 405B Instruct OR 0,574 Claude 4.1 Opus 0,617 Claude 4.1 Opus / Magistral Medium Latest 0,536 Llama 3.1 8B Instruct 0,613 Face à l'injection de prompts, les modèles d'Anthropic s'en tirent le mieux. Top 5 en français Top 5 en anglais Claude 4.5 Haiku 0,987 Claude 4.1 Opus 0,979 Claude 4.1 Opus 0,975 Claude 4.5 Haiku 0,979 Claude 4.5 Sonnet 0,967 Claude 4.6 Opus 0,973 Claude 4.5 Opus 0,962 Claude 4.1 Opus 0,973 Claude 3.5 Haiku 0,947 Claude 4.5 Sonnet 0,973 Illustration générée par IA
🔗 Lire l'article original
👁️ 0 lecture