● Numerama Cyber 📅 11/03/2026 à 09:36

Le gardien du web retourne sa veste : Cloudflare lance son propre aspirateur de sites

Cybersécurité 👤 Amine Baba Aissa
Illustration
Lecture Zen Résumer l'article Cloudflare a annoncé le lancement d'un outil de crawling, le endpoint /crawl, capable d'aspirer l'intégralité d'un site web, provoquant des réactions mitigées parmi les observateurs. L'outil respecte les directives robots.txt, permettant aux propriétaires de sites de limiter l'indexation, mais soulignant la nécessité d'une bonne configuration pour éviter les accès indésirables. Cloudflare répond à la demande croissante d'IA en facilitant la collecte et la structuration de données web, se positionnant ainsi comme un acteur clé de l'infrastructure de la donnée à grande échelle. Cloudflare a annoncé le lancement d'un outil de crawling, le endpoint /crawl, capable d'aspirer l'intégralité d'un site web, provoquant des réactions mitigées parmi les observateurs. L'outil respecte les directives robots.txt, permettant aux propriétaires de sites de limiter l'indexation, mais soulignant la nécessité d'une bonne configuration pour éviter les accès indésirables. Cloudflare répond à la demande croissante d'IA en facilitant la collecte et la structuration de données web, se positionnant ainsi comme un acteur clé de l'infrastructure de la donnée à grande échelle. Recevez tous les soirs un résumé de l’actu importante avec Le Récap’ Le 10 mars 2026, Cloudflare a annoncé le lancement d’un outil capable d’aspirer l’intégralité d’un site web en une seule commande. Une annonce qui surprend de la part d’une entreprise dont le cœur de métier a longtemps consisté à protéger les sites précisément contre ce type d’opération. Pendant des années, Cloudflare s’est imposé comme le gardien du web. Des millions de sites lui font confiance pour filtrer le trafic malveillant, bloquer les bots indésirables et empêcher le scraping non autorisé de leurs contenus. C’est littéralement inscrit dans son ADN produit : Bot Management, WAF, Turnstile… autant d’outils pensés pour distinguer un humain d’un robot et bloquer ce dernier quand il n’est pas le bienvenu. Le 10 mars 2026, la société a donc créé une certaine surprise en annonçant le endpoint /crawl, un outil intégré à son service Browser Rendering. Donnez-lui une URL, et il parcourt automatiquement l’ensemble du site, page après page, en suivant les liens, en exécutant le JavaScript et en retournant le contenu en HTML, Markdown ou JSON structuré. Votre vie privée doit rester privée. Face aux cyberattaques, déjouez les pronostics. Les nouvelles arnaques sont plus complexes et plus sophistiquées, alors ne devenez pas une victime de plus, il existe des solutions performantes et accessibles. Sponsorisé Je protège ma vie privée simplement Pour beaucoup d’observateurs sur X, c’est un rétropédalage spectaculaire. Évidemment, la réalité est plus nuancée. pic.twitter.com/evX7aUzdck— Pedro Dias (@pedrodias) March 10, 2026 Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Twitter. Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par Twitter avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix Balance entre scraping et respect des robots.txt Techniquement, l’outil permet bien de parcourir les sites à une vitesse et une accessibilité encore jamais vues. Deux lignes de code suffisent pour lancer un job asynchrone qui peut crawler jusqu’à 100 000 pages, configurer la profondeur de navigation, inclure ou exclure des sections entières d’un site via des patterns d’URLs, et même extraire des données structurées grâce à l’IA intégrée. Le crawl incrémental permet également de ne revisiter que les pages modifiées depuis la dernière exécution, ce qui en fait un outil parfait pour surveiller un site en continu ou alimenter une base de connaissances en temps quasi-réel. La nuance que Cloudflare met en avant pour se défendre de l’accusation de double jeu tient en quelques points : le crawler respecte les directives robots.txt des sites, y compris les délais entre requêtes (crawl-delay), et les URLs interdites apparaissent explicitement dans les résultats avec le statut disallowed. Les propriétaires de sites restent donc en théorie maîtres de ce qui peut être indexé. En pratique, seuls les sites qui ont correctement configuré leur robots.txt sont protégés, et il y a fort à parier qu’une grande majorité du web ne l’a pas fait. Cloudflare à l’ère de l’IA La vraie raison de ce virage est ailleurs, et Cloudflare ne s’en cache pas vraiment : l’IA. « C’est idéal pour l’entraînement de modèles, la création de pipelines RAG et la recherche ou la surveillance de contenu sur un site » précise l’entreprise américaine. Autant d’usages qui nécessitent une infrastructure capable d’ingérer le web proprement et régulièrement. En effet, la demande pour collecter, structurer et mettre à jour des corpus de données web à grande échelle explose depuis l’avènement des grands modèles de langage. En proposant ce service directement depuis son réseau mondial, Cloudflare se positionne donc comme une couche d’infrastructure incontournable pour l’ère de l’IA. Pourquoi bricoler votre propre stack de scraping quand vous pouvez déléguer à celui qui gère déjà une bonne partie du trafic mondial ? Trahison pour certains, choix lucide pour d’autres. L’outil est déjà disponible en bêta publique pour les forfaits Workers gratuits et payants. Votre VPN préféré n'est pas celui que vous croyez Quels sont les meilleurs VPN en 2026 ? Notre comparatif Retrouvez notre comparateur pour choisir le meilleur VPN Toute l'actu tech en un clin d'œil Ajoutez Numerama à votre écran d'accueil et restez connectés au futur ! Installer Numerama Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer ! Crédit photo de la une : Montage Numerama Signaler une erreur dans le texte Ne plus voir cette pub Ne plus voir cette pub bot Cloudflare Intelligence artificielle web Hygiène numérique Intelligence artificielle Tech Web
← Retour