● Next INpact Télécom 📅 15/04/2026 à 09:53

AI Overviews : Google conteste le taux de 10% d’erreurs, mais en dénombre lui-même… 22%

Intelligence Artificielle 👤 Jean-Marc Manach
Illustration
AI Overviews : Google conteste le taux de 10% d’erreurs, mais en dénombre lui-même… 22% OK Goomer Illustration : Flock Jean-Marc Manach Le 15 avril à 09h53 Le New York Times avance que le taux d’erreurs des AI Overviews de Google, qui résument la meilleure réponse du moteur de recherche, serait d’environ 10 %. Google conteste ce chiffre, au motif qu’il serait basé sur un benchmark biaisé d’OpenAI. Or, d’après son propre outil de test, revu et corrigé afin d’ « offrir à la communauté scientifique un outil plus précis permettant de suivre les progrès réels en matière de vérification des faits », le taux d’erreur serait supérieur à 20 %. Une erreur ? D’après le New York Times, les AI Overviews (Aperçus IA) de Google, qui proposent des réponses générées par IA en tête des résultats du moteur de recherche, se tromperaient environ une fois sur 10. Le journal relève en outre que plus de la moitié des réponses correctes sont « non étayées », car renvoyant vers des sites web qui ne confirment pas entièrement les informations fournies. Une mention en petits caractères figurant sous chaque résumé rappelle que « L’IA peut se tromper, veuillez donc vérifier les réponses ». Mais, souligne le NYT, « comme Google traite plus de cinq mille milliards de recherches par an, cela signifie qu’il fournit des dizaines de millions de réponses erronées chaque heure (soit des centaines de milliers d’inexactitudes chaque minute) ». Selon AI Overviews de Google, le DOGE n’a jamais existé Les AI Overviews de Google fournissent aussi des conseils de santé erronés Le nombre de réponses correctes « non étayées » a explosé de + 50 % Pour parvenir à cette estimation, le New York Times a demandé à la start-up Oumi d’analyser les résumés générés par IA à l’aide d’un test de référence appelé SimpleQA. Publié par OpenAI en 2024, rappelle Ars Technica, ce benchmark de vérification des faits comporte une liste de plus de 4 000 questions avec des réponses vérifiables. Il sert donc à évaluer la capacité des modèles de langage à répondre à des questions courtes visant à vérifier des faits. Une première série de tests a été effectuée en octobre, alors que les questions les plus complexes étaient traitées à l’aide du modèle Gemini 2, une seconde en février, après sa mise à niveau vers Gemini 3, réputé plus puissant. Dans les deux cas, l’analyse d’Oumi s’est concentrée sur 4 326 recherches Google. L’entreprise a constaté que les résultats étaient exacts dans 85 % des cas avec Gemini 2 et dans 91 % des cas avec Gemini 3. En octobre, les réponses correctes étaient « non étayées » dans 37 % des cas. En février, avec Gemini 3, ce chiffre est passé à 56 %, relève le NYT, se basant sur l’analyse d’Oumi. Dit autrement, Gemini 3 se trompe un peu moins souvent, mais le nombre de réponses correctes « non étayées » a explosé de + 50 %. 92 % des gens ne vérifient pas les réponses fournies par les IA « En d’autres termes, Google a provoqué une crise de désinformation », décrypte Futurism dans un article intitulé « Une analyse révèle que les résumés générés par l’IA de Google diffusent des informations erronées à une échelle sans doute sans précédent dans l’histoire de la civilisation humaine ». Soutenez un journalisme indépendant, libre de ton, sans pub et sans reproche. Accédez en illimité aux articles Profitez d'un média expert et unique Intégrez la communauté et prenez part aux débats Partagez des articles premium à vos contacts Abonnez-vous La suite de cet article est réservée à nos abonnés Soutenez un journalisme indépendant, expert et sans pub. Abonnez-vous sur next.ink/subs Signaler un commentaire Voulez-vous vraiment signaler ce commentaire ? Non Oui
← Retour