Pourquoi des centaines de médias veulent effacer leurs traces d'Internet ?

Médias Pourquoi des centaines de médias veulent effacer leurs traces d’Internet&nbsp? 245 rédactions dans neuf pays bloquent les robots de l'Internet Archive pour empêcher les entreprises d'IA de piller leurs articles. Par Jennifer Larcher Publié le 5 mai 2026 à 16h10 C’est l’un de ces dilemmes où tout le monde a raison et où tout le monde perd.

D’un côté, des médias voient leurs archives aspirées sans permission pour nourrir les modèles de langage de la Silicon Valley. De l’autre, un outil de préservation historique (la Wayback Machine) pris entre deux feux et menacé de devenir un gruyère documentaire. Le mécanisme consiste à bloquer l’archiviste pour atteindre le pilleur L’Internet Archive stocke plus de mille milliards de pages web depuis 1996.

Des articles de CNN, du New York Times, du Guardian, de USA Today… Un trésor pour les historiens, les chercheurs, les fact-checkeurs. Et aussi, malheureusement, un buffet à volonté pour les boîtes d’IA. 📩 L’actu digitale évolue vite.

Restez à jour.Recevez la newsletter quotidienne, gratuitement. En vous inscrivant vous acceptez notre politique de protection des données personnelles. Le contenu archivé est accessible via des URL et des API.

Les entreprises d’IA s’en servent pour entraîner leurs modèles, sans négocier de licence ni verser de compensation. Selon Originality AI, une bonne partie de ces archives a déjà été repérée dans des jeux de données utilisés pour l’entraînement de grands modèles. Pour des médias qui poursuivent déjà OpenAI et Perplexity en justice, le fait de laisser cette porte ouverte revient à alimenter l’adversaire par la fenêtre.

241 sites d’information dans le monde entier bloquent au moins l’un des quatre robots d’exploration de l’Archive. Une vingtaine de médias ont ciblé nommément ia_archiverbot, le robot numéro un de la Wayback Machine, pour lui couper l’accès. Une part importante des sites bloqués appartient à USA Today Co, le plus gros éditeur de presse américain.

De ce fait, des centaines de journaux locaux sont en train de disparaître des archives du web. L’Archive se dit victime collatérale Mark Graham, directeur de la Wayback Machine, refuse d’endosser le rôle du coupable. Son organisation n’entraîne aucun modèle d’IA.

Elle stocke, elle préserve, elle rend accessible. Ce sont les entreprises tierces qui exploitent ce stock via les interfaces techniques. L’Archive a d’ailleurs pris des mesures à savoir des restrictions sur les téléchargements massifs et des limitations de l’extraction automatisée.

Graham rappelle aussi un point que les médias gagneraient à ne pas oublier. Sans la Wayback Machine, un article modifié après publication (citation retirée, erreur gommée, paragraphe reformulé) ne laisse aucune trace. Un compromis qui reste à inventer Certains titres, comme le Guardian, cherchent un entre-deux en limitant l’accès plutôt qu’en le verrouillant totalement.

L’ONG Fight for the Future a lancé une pétition signée par une centaine de journalistes qui dénoncent ces blocages au moment même où les archives publiques n’ont jamais été aussi menacées. Les médias se battent contre les bonnes cibles (OpenAI, Perplexity), mais frappent au mauvais endroit. Le fait de bloquer l’Internet Archive ne protège pas le droit d’auteur.

Cela détruit la mémoire collective. Les entreprises d’IA trouveront d’autres sources. Par contre, les historiens n’ont pas de plan B.

Pour aller plus loin Arnaque au faux colis : pourquoi ce message vocal peut-il vous faire tomber dans le piège ?Nestlé mise sur Qualifio pour booster l’engagement des consommateurs à l’échelle mondialePourquoi l’ADSL n’est finalement pas près de disparaître, malgré la fibre partout en FranceAvec Amazon Leo, le géant du e-commerce veut concurrencer Starlink à grande échelleDes sénateurs américains accusent VeriSign de pratiques tarifaires abusives sur les noms de domainesL’intelligence artificielle révolutionne le monde de la traduction web Internet