IA et énergie : ce que les chiffres confirment et ce qu'ils nuancent

Un quart des Français de plus de 18 ans utilisent désormais l’intelligence artificielle générative chaque jour. Les trois quarts y ont recours au moins une fois par semaine. Derrière cette adoption fulgurante se pose la question du coût énergétique, assez doctement documentée, mais aussi sur le rapport avec la performance.

C’est précisément à cette question que s’est attaqué le Pôle d’Expertise de la Régulation Numérique (PEReN), dans une étude technique réalisée en partenariat avec l’Arcep et publiée dans le cadre de son programme de travail 2025. Résultat : les idées reçues sur la consommation des modèles d’IA sont bousculées. Lire aussi : IA : comment éviter le piège de la productivité ?

Première croyance déboulonnée : la taille d’un modèle d’IA n’est pas un indicateur fiable de sa consommation énergétique. Certes, les modèles les plus énergivores sont bien ceux qui comptent le plus grand nombre de paramètres. Mais l’inverse n’est pas vrai : certains modèles consomment autant, voire moins, que des modèles bien plus « petits ».

La clé réside dans l’architecture Mixture of Experts (MoE). Ces modèles sont conçus pour n’activer, lors de chaque requête, qu’une fraction de leur réseau neuronal total. Résultat spectaculaire mesuré par le PEReN : les modèles MoE consomment en moyenne 45 % de moins que des modèles classiques (dits « denses ») ayant le même nombre de paramètres total.

Un levier d’efficacité considérable, encore largement sous-exploité dans le débat sur l’empreinte de l’IA. La quantification s’avère également significative : le passage en mode 8 bits permet un gain moyen de 39 % sur la consommation, selon les mesures réalisées sur le supercalculateur Jean Zay du GENCI. Le raisonnement se paie cher L’autre enseignement majeur de l’étude concerne les modèles dits « de raisonnement », entraînés pour décomposer les problèmes complexes en plusieurs étapes avant de répondre.

Ces modèles sont aujourd’hui au cœur de la stratégie commerciale des grands acteurs de l’IA. Mais leur coût énergétique est lourd. Le PEReN a mesuré qu'en moyenne, activer le mode raisonnement augmente la consommation de 92 %.

Et parfois bien davantage : sur des tâches de génération de code (benchmark HumanEval), l'effet moyen observé grimpe à +849 % par rapport à un modèle classique. En clair, demander à un modèle de « réfléchir » avant de répondre peut multiplier sa facture énergétique par près de dix. Le problème est que ce surcroît de consommation ne se traduit pas toujours par un gain de qualité équivalent.

Sur des questions factuelles courtes, le bénéfice du raisonnement est limité : + 41 % d'amélioration de performance pour + 41 % de consommation supplémentaire sur le benchmark SimpleQA. « Un utilisateur de LLM devrait s'assurer au préalable qu'un tel modèle est adapté à son cas d'usage, ou que le mode raisonnement est désactivé avant de l'utiliser », conclut le rapport. La spécialisation, fausse bonne idée ?

L'étude se penche également sur les modèles spécialisés ; ces versions entraînées spécifiquement pour la médecine, le droit ou la programmation. La conclusion est cinglante : les modèles spécialisés étudiés ne garantissent pas de meilleures performances sur les tâches de leur domaine, du moins parmi les modèles open-weights disponibles aujourd'hui. Deux facteurs expliquent ce paradoxe.

D'abord, un modèle spécialisé peut être entraîné sur une tâche trop précise pour bien généraliser à l'ensemble de son domaine de spécialité. Lire aussi : Infrastructures LAN : une gestion plus assistée qu'automatisée Ensuite, et c'est là l'argument massue, le rythme d'innovation dans les modèles généralistes est tel que les versions spécialisées, publiées moins fréquemment, se retrouvent rapidement dépassées par des généralistes plus récents. Pour un utilisateur cherchant un modèle open-source, il peut donc être préférable d'opter pour le généraliste le plus récent.

Bonne nouvelle pour les utilisateurs de modèles capables de traiter à la fois du texte et des images : sur des tâches purement textuelles, les modèles multimodaux affichent une consommation et des performances comparables à leurs homologues 100 % textuels. Le surcoût n'apparaît que lorsqu'on leur soumet effectivement des images — et là, la consommation peut doubler. Performance et sobriété ne s'opposent pas C'est peut-être la conclusion la plus contre-intuitive et la plus prometteuse de l'étude.

Indépendamment de la spécialisation, de la multimodalité ou de l'activation d'un mode raisonnement, la performance d'un modèle n'est pas une fonction croissante de sa consommation énergétique. Dit autrement : un modèle plus sobre n'est pas forcément un modèle moins bon. Et un modèle très consommateur n'est pas forcément le plus performant.

Les chercheurs du PEReN ont ainsi testé 23 modèles développés par plus de cinq fournisseurs différents ( Alibaba, Google, Meta, Mistral, Z.ai notamment) sur six benchmarks couvrant des usages représentatifs du grand public (1). Au total, l'ensemble des expériences a généré 0,229 tCO2e en coûts CPU et GPU combinés. Sur les critères comparés, l'écart de consommation entre les modèles les plus sobres et les plus énergivores atteint un facteur quatre à cinq à matériel constant.

Un écart comparable, notent les auteurs, à ce que l'on peut observer en faisant tourner un même modèle sur deux infrastructures GPU différentes. Ce que cette étude ne dit pas encore Le PEReN est le premier à reconnaître les limites de ses travaux. L'étude se restreint aux modèles à poids ouverts quand les grands modèles propriétaires comme GPT ou Gemini en version complète restent une boîte noire.

Par ailleurs, seuls trois modèles spécialisés ont pu être inclus, nombre insuffisant pour tirer des conclusions définitives. Enfin, les benchmarks, aussi rigoureux soient-ils, ne reflètent pas toujours la réalité des interactions quotidiennes avec un LLM. L'étude fait également l'impasse sur l'ensemble du cycle de vie de l'IA : fabrication des puces, construction des data centers, consommation d'eau, entraînement initial des modèles. Des postes qui, dans certains cas, représentent l'essentiel de l'empreinte environnementale globale. (1) Questions de culture générale, raisonnement médical, génération de code, écriture créative, compréhension d'images, raisonnement physique.