Avec Opus 4.8, Claude apprend à dire « je ne sais pas »

Avec Opus 4.8, Claude apprend à dire « je ne sais pas » La vérité si je mens Mickael Bazoge Le 29 mai à 09h04 Ça n’aura pas traîné : à peine 40 jours après le lancement d’Opus 4.7, Anthropic remet le couvert avec une nouvelle version de son modèle IA le plus avancé (hors Mythos). Opus 4.8 inaugure une nouvelle fonction pour améliorer la prise en charge des requêtes très complexes, réduire les erreurs, ainsi qu’un nouveau mode « fast » pour brûler moins de tokens. Une erreur ?

Impossible d’arrêter le feu roulant des nouveaux modèles chez Anthropic. Opus 4.7 remonte au 16 avril, mais il est déjà passé de mode : son successeur, Opus 4.8, a en effet été annoncé par le labo IA. Le modèle apporte des améliorations « modestes mais tangibles », affirme l’entreprise, à commencer par… une plus grande prudence quand il ne sait pas quelque chose.

Plus d’honnêteté, moins de tokens Selon les testeurs cités par Anthropic, Opus 4.8 se montre plus honnête : il signale plus facilement ses incertitudes, évite les affirmations qui ne sont pas vérifiées et laisse moins passer de bugs sans les mentionner. « Un problème général avec les modèles d’IA, c’est qu’ils tirent parfois des conclusions hâtives, en affirmant avec assurance avoir progressé dans leur travail alors que les preuves sont minces », explique la startup. Elle affirme que le nouveau modèle est « environ quatre fois moins susceptible » de laisser des défauts non signalés dans le code, par rapport à son prédécesseur.

Autre nouveauté : une fonction expérimentale baptisée « dynamic workflows » pour Claude Code. Le modèle est en mesure de gérer de très gros projets logiciels en parallèle, ce qui lui permet de le découper en petits bouts, de lancer des centaines de sous-agents en simultané et de vérifier automatiquement les résultats avant de répondre. Anthropic donne en exemple une migration massive de bases de code contenant « des centaines de milliers de lignes ».

Image : Anthropic En termes de benchmarks, Opus 4.8 affiche des gains incrémentaux sur la plupart des tests (+ 4,9 points sur SWE-Bench Pro,+ 8,5 points sur Terminal-Bench…). Anthropic ne fait pas de bond spectaculaire ici, mais améliore l’existant par petites touches et maintient sa position sur les tâches agentiques. C’est cohérent avec la stratégie de la startup qui vise d’abord les développeurs et les entreprises : sur SWE-Bench Pro (agents de programmation), Opus 4.8 est loin devant GPT-5.5 et Gemini 3.1 Pro.

Le modèle d’OpenAI reste cependant le patron sur Terminal-Bench, qui mesure des tâches très proches d’un vrai environnement développeur. IA La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable IA Jeudi 13 novembre 2025 à 12h41 13/11/2025 12h41 7 La brûlure des tokens Un des changements les plus importants de cette nouvelle livrée est un réglage d’effort dans claude.ai et Cowork. L’utilisateur peut sélectionner le niveau de ressources à consacrer à une réponse : un effort « faible » retournera des réponses moins précises mais le processus de réflexion sera plus rapide et surtout moins coûteux, à l’inverse d’un effort plus élevé.

Par défaut, Opus 4.8 est réglé sur un effort élevé, qui offre selon Anthrophic le meilleur équilibre entre « qualité et expérience utilisateur ». Sur les travaux de code, ce niveau d’effort consomme le même volume de tokens qu’Opus 4.7 par défaut, « mais avec de meilleures performances ». Cette question des tokens est devenu très sensible, Opus 4.7 se montrant très gourmand en la matière.

Une critique qui n’a pas échappé à Anthropic : les limites d’utilisation dans Claude Code ont été relevées pour les niveaux d’effort supérieurs. IA #Nextquick : Pourquoi et comment Opus 4.7 crame ses tokens beaucoup plus vite qu’Opus 4.6 IA Vendredi 01 mai 2026 à 09h09 01/05/2026 09h09 20 Toujours dans cette même optique, Anthropic a révisé fortement à la baisse le coût du mode « rapide » pour Opus 4.8, désormais trois fois moins onéreux que son équivalent sur Opus 4.7. Ce mode, qui travaille 2,5 fois plus vite, revient maintenant à 10 dollars par million de tokens en entrée, et 50 dollars par million de tokens en sortie.

C’est trois fois moins cher que pour les précédents modèles (30/150 dollars). Les tarifs pour un usage standard d’Opus 4.8 ne changent pas : 5 dollars par million de tokens en entrée, 25 dollars en sortie. Enfin, fidèle à une stratégie marketing bien rodée, Anthropic fait miroiter le lancement « dans les prochaines semaines » de modèles grand public basés sur Mythos, le fameux LLM tellement balaise qu’il n’est distribué qu’au compte-goutte au travers du projet Glasswing.

L’entreprise explique que le développement de garde-fous avance bien. Ces mécanismes de sécurité seraient nécessaires pour éviter que les capacités de Mythos ne puissent servir aux pirates pour exploiter des failles. Ces nouveautés et cette agitation autour de Mythos est de bon aloi, alors qu’Anthropic s’apprête selon les rumeurs à se lancer en bourse d’ici la fin de l’année, alors même que l’entreprise vient de boucler une nouvelle levée de fonds record.

Économie Anthropic lève 65 milliards de dollars, avec une valorisation qui dépasse celle d’OpenAI Économie Vendredi 29 mai 2026 à 07h21 29/05/2026 07h21 5 Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant. Accédez en illimité aux articles d'un média expert Profitez d'au moins 1 To de stockage pour vos sauvegardes Intégrez la communauté et prenez part aux débats Partagez des articles premium à vos contacts Abonnez-vous DragonDesBatignolles Premium Il y a 40 minutes Message 1 Signaler Bloquer cet utilisateur L’IA, c’est un roman au long court en fait…

Gamble Il y a 40 minutes Message 2 Signaler Bloquer cet utilisateur En cumulant les affirmations et les superlatifs des commerciaux sur les différentes itérations, on devrait probablement déjà avoir dépassé l'AGI ... bingo.crepuscule Premium Modifié il y a 31 minutes Message 3 Historique Signaler Bloquer cet utilisateur Le problème de Claude, entre autres, c'est le prix. Il faut payer dix fois plus cher que codex pour parvenir au même résultat et les limites y sont beaucoup plus généreuses. Les limites de Claude sont une horreur.Et il y a un espèce de fan-service qui s'est installé pour Claude parce qu'ils ont été les premiers à proposer quelque chose de vraiment potable pour le développement, pourtant Codex bosse désormais vraiment bien, bien que les modèles 5.4 et 5.5 aient fait enfler les prix et la quantité de tokens sur les limites sur 5H et sur la semaine.Je suis en train de faire de la recherche en ce moment même sur du code lourd pour comprendre comment lancer n'importe quel jeu via KMS sans compositing/environnement de bureau, et codex bosse sans discontinuer depuis des lustres avec /goal pour effectuer les recherches et tous les tests nécessaires tout en documentant...

Gilbert_Gosseyn Premium Il y a 36 minutes Voir les réponses Message 4 Aller au commentaire enfant Signaler Bloquer cet utilisateur J'en profite pour rappeler l'existence de ce site : https://isaiprofitable.com/Dans un monde normal, aucune de ces boites d'AI n'existerai entre aujourd'hui ... bingo.crepuscule Premium Modifié il y a 33 minutes Voir les réponses En réponse à Message 4.1 Historique Aller au commentaire enfant Signaler Bloquer cet utilisateur C'est la normalité de notre époque...Comme toute ruée vers l'or, ce sont les fabricants et vendeurs de pelles et de pioches, les grands gagnants, ce site le confirme. Gilbert_Gosseyn Premium Il y a 8 minutes En réponse à Message 4.1.1 Signaler Bloquer cet utilisateur Exactement ce que je disais aux collègues. gg40 Premium À l'instant En réponse à Message 4.2 Signaler Bloquer cet utilisateur Sympas cette petite interface gg40 Premium Modifié il y a 5 minutes Voir les réponses Message 5 Historique Aller au commentaire enfant Signaler Bloquer cet utilisateur Opus 4.8 se montre plus honnêteJe dois être particulièrement mauvais car il me disait régulièrement que je me goure.Cette propension à aller dans le sens de l'utilisateur est clairement très pénible et oblige à challenger les réponses. Pour le boulot tech en tout cas, je n'ai pas d'autres utilisations des LLM. bingo.crepuscule Premium Modifié il y a 26 minutes Voir les réponses En réponse à Message 5.1 Historique Aller au commentaire enfant Signaler Bloquer cet utilisateur J'ai été contredis de nombreuses fois par codex depuis la 5.3.

On focalise sur Claude, alors que d'autres LLM existent, bien moins onéreux que Claude, et désormais aussi efficaces, si ce n'est parfois plus, quand on les confronte... 🫪 gg40 Premium Il y a 4 minutes En réponse à Message 5.1.1 Signaler Bloquer cet utilisateur Oui faut que je test Codex ! Signaler un commentaire Voulez-vous vraiment signaler ce commentaire ? Non Oui