● Silicon.fr Télécom 📅 05/05/2026 à 10:00

Le web s'approprie lentement les briques censées l'ouvrir aux IA

Intelligence Artificielle 👤 Clément Bohic
Illustration
Désormais, plus de la moitié des bots sont spécifiquement destinés à entraîner des IA. Cette statistique ne vaut peut-être pas pour le web dans son entièreté. Elle vaut en tout cas pour le réseau Cloudflare*. Sur les 7 derniers jours, le taux de bots « spécial entraînement » a dépassé les 52 %, contre 8 % dédiés à la recherche et 37 % ayant des finalités mixtes. Cette part est en progression. Si on étend la fenêtre aux 3 derniers mois, elle avoisine 49 %. En élargissant sur les 6 derniers mois, elle tombe autour de 44 %. Et sur les 12 derniers mois, sous les 40 %. GPTBot, plus bloqué que les autres dans robots.txt Sur le « top 10 000 » des domaines connectés à son réseau, Cloudflare a pu analyser 4094 fichiers robots.txt. Lire aussi : Les IA préfèrent Markdown : Cloudflare expérimente une conversion à la source GPTBot y est le bot le plus souvent bloqué (au moins partiellement). Suivent CCBot (de Common Crawl), ClaudeBot, Google-Extended et Bytespider (de ByteDance, éditeur de TikTok). GPTBot est, en même temps, le troisième bot le plus souvent autorisé (au moins partiellement), devant PerplexityBot et ChatGPT-User (qui visitent tous deux des pages web en réponse à des requêtes d’utilisateurs). Perplexity, assez souvent autorisé à crawler Sur les sites étiquetés « Technologie » (926 fichiers robots.txt), on bloque surtout GPTBot (70 occurrences), CCBot (67) et ClaudeBot (59). On autorise avant tout PerplexityBot (58), GPTBot (57) et Googlebot (52). En catégorie « Business » (797 fichiers), on bloque avant tout GPTBot (55), Amazonbot (51) et ClaudeBot (50). On autorise essentiellement GPTBot (46), Googlebot (42) et PerplexityBot (41). En catégorie « E-commerce » (291 fichiers), les plus bloqués sont Googlebot (44), ClaudeBot (40) et GPTBot (40). Les plus autorisés sont Googlebot (35), bingbot (20) et OAI-SearchBot (20 ; dédié à l'indexation de contenus pour ChatGPT). En catégorie « Actualités/Médias » (183 fichiers), les blocages portent principalement sur CCBot (81), GPTBot (76) et ClaudeBot (71). Les autorisations, bien moins nombreuses, sur Googlebot (22), OAI-SearchBot (19) et GPTBot (19). Elles sont souvent partielles. Les sites web s'adaptent - doucement - aux IA Cloudflare propose un outil pour évaluer si un site est « prêt pour les agents ». Parmi les « 200 000 principaux domaines » testés, il en a retenu un échantillon de 109 415 et y a mesuré le niveau d'implémentation de diverses technologies. Lire aussi : Cloudflare mise gros sur Astro 78 % de ces domaines ont un fichier robots.txt ; 63 %, un sitemap. Ils sont 17 % à avoir intégré des règles IA dans robots.txt. 9 % exploitent les en-têtes Link, qui permettent de sérialiser plusieurs liens - et ainsi, typiquement, de pointer vers des métadonnées relatives à la ressource demandée. On tombe à 6 % pour la négociation Markdown. Il s'agit d'une initiative de Cloudflare. Le principe : exploiter les en-têtes de négociation de contenu pour effectuer, à la source, une conversion du HTML en Markdown, format plus adapté aux IA. On est également autour de 6 % pour la découverte OAuth. La spec sous-jacente (RFC 8414, Authorization Server Metadata) permet au client de rechercher les informations nécessaires pour interagir avec un serveur OAuth. L'Universal Commerce Protocol, que Google proposer pour encadrer le commerce agentique, a un taux d'adhésion d'un peu plus de 5 %. On en est à 4,5 % pour une autre techno made in Cloudflare : Content Signals. Cette extension de robots.txt implémente un mécanisme pour expliquer aux systèmes automatisés comment utiliser du contenu. Elle s'appuie sur trois signaux pour autoriser respectivement la construction d'un index de recherche, l'exploitation du contenu en tant qu'input pour des réponses générées en temps réel et son utilisation pour l'entraînement ou le fine-tuning. Skills, cartes A2A et MCP, catalogues d'API... Une adoption marginale L'adhésion est quasi nulle (< 0,1 %) pour les briques suivantes : Catalogues d'API OAuth Protected Resource (RFC 9728, qui permet d'obtenir les infos nécessaires pour interagir avec une ressource protégée) Cartes de serveur MCP Web Bot Auth (origine Cloudflare ; méthode d'authentification des bots par signature) Skills pour agents Cartes d'agents A2A WebMCP (bibliothèque JavaScript pour exposer les fonctionnalités de pages web aux agents IA directement dans les navigateurs) x402 (protocole de paiement s'appuyant sur le code HTTP 402) Cloudflare a catégorisé les 109 415 domaines en attribuant à chacun une ou plusieurs étiquettes sectorielles. Ci-dessous, un aperçu de l'adoption des différentes technologies dans les dix catégories les plus fournies. Nous nous limitons à celles pour lesquelles le taux atteint au moins 1 %. Règles IA En-têtes Link Content Signals Négociation Markdown Universal Commece Protocol Découverte OAuth Technologie (46 239 domaines) 4,6 % 5,2 % 1,6 % 1,5 % Business/économie (25 257) 2,5 % 3,3 % 1, 2% Divertissement (23 747) 5,8 % 1,9 % 1,2 % Business (19 768) 1,9 % 2,8 % 1,1 % Shopping/enchères (18 530) 3,1 % 4,2 % 4,1 % 4,1 % E-commerce (15 964) 2,5 % 4,1 % 4,1 % 4 % Éducation (14 829) 2,4 % 1,1 % Société/lifestyle (13 716) 2,2 % 3,2 % 3,2 % 3,3 % Automobile (7834) 1,8 % Actualités/médias (6951) 2,2 % ChatGPT, un temps dans le top 10 des services les plus fréquentés Sur la base du trafic vers le résolveur DNS 1.1.1.1, chatgpt.com a brièvement fait partie des 10 domaines les plus populaires, vers la mi-avril. Lire aussi : Cloudflare rachète Human Native, une marketplace de données IA Si on trie par services, ChatGPT/OpenAI est apparu dans le top mondial 10 mi-février. Il s'y est globalement maintenu jusqu'à mi-avril. La situation est similaire sur le périmètre France. Si on mesure le nombre de clients uniques connectés, le .ai a été, sur les 12 derniers mois, le 13e TLD le plus populaire. Créé en 1995, il est rattaché à Anguila, territoire britannique des Caraïbes de moins de 20 000 habitants. En mars, il a atteint le million de domaines enregistrés. * Cloudflare affirme qu'environ 20 % du web est connecté à son réseau. Illustration principale générée par IA
← Retour