IA et médias: la presse française cible des bases de données sur Internet

17:071/09/2025, lundi
AFP
Deux organisations représentant 800 titres de presse exigent le retrait de leurs contenus des bibliothèques publiques utilisées pour entraîner l’intelligence artificielle.
Crédit Photo : X /
Deux organisations représentant 800 titres de presse exigent le retrait de leurs contenus des bibliothèques publiques utilisées pour entraîner l’intelligence artificielle.

Des journaux et magazines français ont annoncé lundi le lancement d’une offensive contre plusieurs bases de données publiques sur Internet, accusées d’alimenter les services d’intelligence artificielle (IA) sans contrepartie financière.

Cette
"action coordonnée"
, amorcée par des mises en demeure, est menée par l’Alliance de la presse d’information générale (Apig), qui regroupe les quotidiens, et le Syndicat des éditeurs de la presse magazine (SEPM). Ensemble, ces deux organismes représentent quelque 800 titres.

Leur objectif est
"d’obtenir le retrait des contenus de leurs membres des bases de données publiques Common Crawl, C4 et Oscar, massivement utilisées par les services d’intelligence artificielle générative pour l’entraînement de leurs modèles de langage"
, ont-ils indiqué dans un communiqué conjoint.

Common Crawl, dont C4 et Oscar sont des dérivés, constitue une gigantesque bibliothèque publique du web. Grâce à des robots, l’organisation collecte des milliards de pages dont les contenus sont archivés puis mis en libre accès.

Selon l’Apig et le SEPM, les services d’IA générative comme ChatGPT
"s’approvisionnent massivement en contenus de presse"
à travers ces bases, lesquelles
"reproduisent et distribuent sans autorisation, ni restriction d’accès, des millions d’articles protégés par le droit d’auteur et le droit voisin"
.

Les deux organisations affirment que
"la présence massive de contenus de presse dans ces bases"
a été constatée par huissier. Elles envisagent désormais
"de futures actions judiciaires"
contre les acteurs ayant profité de ces ressources protégées.

Cette initiative marque une nouvelle étape dans les tensions persistantes entre la presse française et les entreprises du secteur de l’IA. En février dernier, cinq organisations représentant plus de 3.000 titres, dont l’Apig et le SEPM, avaient déjà appelé les pouvoirs publics à
"imposer un dialogue"
afin de mettre fin au
"pillage"
de leurs contenus et de garantir
"une information fiable"
.

À lire également:





#France
#médias
#journaux
#presse
#IA
#internet
#technologies
#informatique
#Common
#intelligence artificielle
#presse française
#Apig
#SEPM
#Common Crawl
#C4
#Oscar
#ChatGPT
#bases de données
#droit d’auteur
#contenus protégés