● Les Numériques Télécom 📅 05/05/2026 à 09:31

Une IA a été testée sur de vrais patients aux urgences : elle a surpassé les médecins

Géopolitique 👤 Aymeric Geoffre-Rouland

Une IA a été testée sur de vrais patients aux urgences : elle a surpassé les médecins Par Aymeric Geoffre-Rouland Publié le 05/05/26 à 09h31 Nos réseaux : Suivez-nous Ajoutez nous à vos favoris Google Commenter 3 © Image d'illustration, SS STD - Couloir d'un service d'urgences. C'est dans cet environnement, sous pression et avec peu d'informations, que l'IA a surpassé les médecins. On testait les systèmes d'aide au diagnostic médical sur des vignettes cliniques depuis les années 1950. Pendant des décennies, les machines échouaient là où l'intuition du clinicien faisait la différence. Cette époque semble révolue.Une équipe pluridisciplinaire, pilotée par des chercheurs de Harvard, Stanford et du Beth Israel Deaconess Medical Center, vient de démontrer qu'un grand modèle de langage dépasse désormais les performances de centaines de médecins sur des tâches de raisonnement clinique variées.Le LLM domine sur cinq protocoles distinctsLes auteurs ont soumis le modèle o1-preview à cinq séries d'épreuves, chacune adossée à une cohorte de référence humaine. Sur les cas clinicopathologiques du New England Journal of Medicine, le modèle identifie le bon diagnostic dans son différentiel dans 78,3 % des situations, et atteint 97,9 % lorsqu'on inclut les diagnostics proches ou utiles.Précision diagnostique des systèmes d'IA sur les cas cliniques du New England Journal of Medicine, de 2012 à 2024.© Brodeur et al., Science 2026.Sur les cas de management clinique (Grey Matters), o1-preview obtient un score médian de 89 %, contre 34 % pour les médecins disposant de ressources classiques. L'écart est massif. Nos résultats montrent que les LLM ont désormais éclipsé la plupart des benchmarks de raisonnement clinique.En conditions réelles aux urgences, le modèle tient son rangL'expérience la plus frappante porte sur 76 patients réels admis aux urgences de Boston ; deux internistes seniors, o1 et GPT-4o ont fourni des diagnostics différentiels à trois moments clés du parcours patient, du triage initial à l'hospitalisation. Des évaluateurs en aveugle ont noté chaque proposition.Résultat : o1 identifie le diagnostic exact ou très proche dans 67,1 % des cas dès le triage, contre 50 à 55 % pour les praticiens. L'avantage se maintient à chaque étape, et se révèle le plus prononcé là où l'information disponible est la plus parcellaire. “L'utilisation accrue de ces outils pourrait contribuer à réduire les coûts humains et financiers de l'erreur diagnostique, du retard et du défaut d'accès aux soins”, indique l'étude.Performance diagnostique comparée de l'IA (o1) et de deux médecins internistes sur 76 cas réels aux urgences, à trois étapes du parcours patient.© Brodeur et al., Science 2026.Mais les auteurs restent lucides : l'étude ne couvre que le raisonnement textuel, ignore les signaux visuels et auditifs propres à la clinique, et se concentre sur la médecine interne et les urgences. Elle constitue néanmoins un signal fort en faveur d'essais prospectifs à grande échelle. Suivez toute l'actualité des Numériques sur Google Actualités et sur la chaîne WhatsApp des Numériques Envie de faire encore plus d'économies ? Découvrez nos codes promo sélectionnés pour vous.

🔗 Lire l'article original 👁️ 0 lecture

← Retour