Anthropic vous offre 90% de réduction sur votre facture Claude, et presque personne ne le sait

© Canva Si vous avez pris l’habitude d’utiliser l’IA dans votre quotidien, vous savez que toutes les économies sont bonnes à prendre. Changer de modèle pour un algorithme moins gourmand, éviter les conversations à rallonge qui plombent votre consommation, compresser vos prompts… Toutes ces astuces vous permettent de gagner quelques euros sur la facture finale.

Mais une chose peut vraiment vous rapporter gros. Le prompt caching, c’est quoi ? Le prompt caching vous permet d’obtenir une réduction de 90% sur les tokens d’entrée mis en cache.

Et pourtant, la fonctionnalité proposée par l’API d’Anthropic reste largement sous-utilisée. Concrètement, chaque fois qu’un message est envoyé à Claude, le modèle ne traite pas juste la dernière question de manière isolée. Le prompt caching identifie les tokens qui restent identiques entre plusieurs requêtes : si une requête commence par la même séquence de tokens qu’une requête précédente, le modèle peut réutiliser la représentation déjà calculée plutôt que de tout recalculer à chaque fois.

Plus concrètement, le gros défaut de Claude réside dans son absence de mémoire. A chaque message, l’IA relit tout depuis le début : contexte, prompt de base, historique de la conversation… C’est lent, redondant, et rapidement coûteux.

Le prompt caching permet de rappeler à l’IA qu’elle a déjà lu le début de votre conversation, en gardant l’historique des messages en mémoire pendant 5 minutes. Si une nouvelle question est envoyée dans ce délai, Claude ne relit pas tout, et part uniquement de la nouvelle requête. 90% d’économie sur les tokens Les tokens relus depuis le cache coûtent environ 10 fois moins cher que les tokens classiques.

Sur une longue conversation avec un prompt volumineux, cela peut représenter 70 à 90% d’économies. Le prompt caching est accessible à tous, simple à mettre en place, et surtout, il permet de gagner de l’argent et du temps sur les tâches répétitives. La bonne nouvelle, c’est que vous n’avez presque rien à faire : les discussions directes avec Claude Chat utilisent le prompt caching par défaut.

Pour les automatisations via Claude Code ou Cowork, qui utilisent des API, il suffit d’ajouter une ligne sur l’appel API. cache_control={"type": "ephemeral"} Il suffit ensuite de relancer la requête, et Claude s’occupe du reste. Pour vérifier que tout est fonctionnel, tapez : print(response.usage) Si le cache_read_input_tokens est supérieur à 0, vous avez économisé des tokens, et donc de l’argent. C’est aussi simple que ça. 🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.

Partagez 𝕏 0 commentaire Signaler une erreur NomPrénomNomAdresse de contact *L'erreur concerne *Une / des fautes d'orthographeUne formulation erronéeLe sens même de l'articleErreur à signaler à l'équipe du JDG *NameEnvoyer argentClaudefactureIATokens French Days : 5 offres à saisir d’urgence sur Joybuy pour les gamers Les dernières actualités Anthropic vous offre 90% de réduction sur votre facture Claude, et presque personne ne le sait J’ai vu le premier film intégralement fait en IA et c’est exactement ce que vous imaginez French Days : 5 offres à saisir d’urgence sur Joybuy pour les gamers Claude Mythos : l’intelligence artificielle d’Anthropic est tellement puissante qu’elle a explosé un benchmark (le développeur doit faire une mise à jour) Xiaomi 15T : à prix cassé, le smartphone haut de gamme part comme des petits pains (-48%) Amazon Luna : 15 jeux gratuits en mai pour les abonnés Prime Bouygues Telecom victime d’une nouvelle fuite de données : comment savoir si vous êtes touchés ? Samsung accusé d’avoir utilisé l’image de Dua Lipa sans autorisation sur ses cartons de télévision, que s’est il passé ?