Copyright : Hachette, Elsevier et trois autres éditeurs attaquent Meta

Copyright : Hachette, Elsevier et trois autres éditeurs attaquent Meta Pirate, moi ? Illustration : Flock Martin Clavey Le 06 mai à 12h03 Après plusieurs plaintes d’auteurs, cinq multinationales de l’édition (notamment scolaire et scientifique) attaquent Meta devant la justice américaine pour l’utilisation d’œuvres qu’elles éditent pour entrainer la famille de modèles d’IA générative Llama. Une erreur ?

Meta fait face à une action en justice pour violation du copyright qui pèsera sans doute un peu plus lourd que celles qui sont arrivées devant les tribunaux jusque là concernant l’utilisation pour ses modèles d’IA générative d’œuvres copyrightées. Ici, ce ne sont pas quelques auteurs qui attaquent le groupe dirigé par Mark Zuckerberg (qui est aussi visé personnellement par la plainte), mais cinq multinationales de l’édition : Hachette, Macmillan, McGraw Hill, Elsevier et Cengage. Scott Turow, auteur de thrillers à succès mais également éditorialiste et avocat, est aussi associé à la plainte.

Droit IA : Meta aurait entraîné son modèle Llama sur la bibliothèque clandestine LibGen Droit Lundi 13 janvier 2025 à 15h09 13/01/2025 15h09 13 Meta encore accusé d’être passé par du téléchargement illégal La plainte [PDF], qui a été déposée ce mardi devant la cour du district sud de New York, accuse Meta et donc Mark Zuckerberg d’avoir d’abord « illégalement téléchargé via torrent [torrented, en anglais] des millions de livres et articles de revues scientifiques copyrightés provenant de sites pirates notoires et de scrapes web non autorisés de virtuellement tout l’internet », puis de les avoir copiés « à maintes reprises pour entraîner le système d’IA générative de Meta, baptisé Llama, dont la valorisation s’élève à plusieurs milliards de dollars ». « Non contents d’utiliser les œuvres protégées par le copyright extraites de Common Crawl, les accusés ont cherché d’autres sources de textes copyrightés pour entraîner leurs modèles Llama », expliquent les avocats des éditeurs. « Au départ, les accusés avaient envisagé d’obtenir des licences auprès de grands éditeurs pour utiliser des œuvres littéraires.

Ils ont finalement opté pour une autre solution : télécharger illégalement les œuvres des demandeurs et du groupe de plaignants à partir de sites de piratage notoires, notamment LibGen, Anna’s Archive, Sci-Hub, Sci-Mag et d’autres », ajoutent-ils. Chargeant le CEO du groupe, ils affirment que « Zuckerberg lui-même a personnellement autorisé et activement encouragé cette violation ». Mais les éditeurs n’accusent pas seulement Meta de téléchargement.

Comme dans d’autres cas concernant l’utilisation d’œuvres par des IA génératives, ils affirment que les modèles de Meta restituent aussi ces œuvres dans leurs réponses. « Llama génère des reproductions verbatim ou quasi verbatim des œuvres protégées par le copyright » des plaignants, affirme la plainte. « Par exemple, lorsqu’on lui soumet deux courtes phrases tirées du manuel à succès de Cengage, Calculus: Early Transcendentals, 9e édition, de James Stewart, Llama se met à reproduire mot pour mot la suite de la section », ajoutent les avocats.

« L’IA est à l’origine d’innovations transformatrices, d’une productivité accrue et d’une plus grande créativité pour les particuliers et les entreprises, et les tribunaux ont à juste titre estimé que l’entraînement d’un modèle d’IA sur des contenus protégés par le copyright pouvait relever du fair use », a affirmé le porte-parole de Meta Dave Arnold, au New York Times, « nous nous défendrons avec vigueur dans cette affaire ». IA IA : le Bureau US du copyright se positionne sur le fair use, Trump vire sa responsable IA Mardi 13 mai 2025 à 14h36 13/05/2025 14h36 9 La question du fair use n’est pas encore tranchée Si l’année dernière, les entreprises d’IA avaient gagné plusieurs manches judiciaires, contrairement à ce qu’affirme Meta, le débat sur le fair use pour entrainer les IA n’avait pas été tranché et le sujet reste encore ouvert. À l’époque, le juge Vince Chhaabria avait expliqué qu’il doutait de l’utilisation du fair use concernant les manuels scolaires en expliquant qu’il fallait aussi prendre en compte des « préoccupations concernant le préjudice qu’elle [l’IA générative] peut infliger au marché des œuvres sur lesquelles elle est entraînée ».

Cette réflexion peut sans doute s’étendre aux nombreuses œuvres qui se trouvent dans les catalogues des cinq éditeurs plaignants. Hachette, McGraw Hill et Cengage font partie des plus gros éditeurs de manuels scolaires dans le monde, par exemple. Et, si Elsevier est devenue une filiale d’un des plus grands courtiers de données du monde et fait maintenant d’importants bénéfices en devenant un data broker de l’activité scientifique, elle reste un des plus importants éditeurs scientifiques mondiaux.

Sciences Elsevier récupère le plus de données possible sur les étudiants et chercheurs américains Sciences Jeudi 14 décembre 2023 à 17h05 14/12/2023 17h05 4 La plainte demande la destruction de toutes les copies d’œuvres copyrightées utilisées par Meta pour l’entrainement de ses modèles après que l’entreprise en ait fait la liste exhaustive, qu’elle « cesse toute activité illégale » et « toute autre mesure que la Cour jugera appropriée ». Interrogée par le New York Times, la responsable de l’Association of American Publishers qui a rendu publique cette plainte, Maria A. Pallante, affirme : « Nous nous concentrons sur la création d’un paysage de l’IA bien plus viable — un environnement transparent, équitable et participatif, doté de garde-fous pour protéger les auteurs et les éditeurs contre tout préjudice.

Les préjudices sont déjà évidents ». Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert Profitez d'au moins 1 To de stockage pour vos sauvegardes Intégrez la communauté et prenez part aux débats Partagez des articles premium à vos contacts Abonnez-vous Grutorel Premium Il y a 16 minutes Voir les réponses Message 1 Aller au commentaire enfant Signaler Bloquer cet utilisateur "La plainte demande la destruction de toutes les copies d’œuvres copyrightées utilisées par Meta pour l’entrainement de ses modèles après que l’entreprise en ait fait la liste exhaustive, qu’elle « cesse toute activité illégale » et « toute autre mesure que la Cour jugera appropriée »."c'est mathématiquement impossible, retirer quelque chose d'un LLM n'est pas possible (à ma connaissance), on peut ajouter des choses (comme lui faire "oublié" le livre mais il restera toujours des traces) mais pas en retirer fanchig Premium Il y a 10 minutes En réponse à Message 1.1 Signaler Bloquer cet utilisateur Soit ils refont un entrainement from scratch avec des données propres, soit ils paient du copyright.-> ce ne sera évidemment ni l'un ni l'autre.(idem pour Google, Anthropic, Mistral, etc.) Signaler un commentaire Voulez-vous vraiment signaler ce commentaire ? Non Oui