Réserver ses droits sur la fouille de textes et données
Cela n’aura échappé à personne depuis quelques années, mais l’intelligence artificielle est désormais sur toutes les lèvres et tous les claviers. Ce qu’on appelle communément ainsi en ce moment, ou IA, ce sont avant tout des modèles de machine learning entraînés sur des jeux de données dans le but de répondre à une problématique. De nos jours, c’est surtout l’IA générative (GenAI) qui est au cœur de toutes les discussions. Nous parlons notamment ici des grands modèles language (LLM) pour produire du texte ou encore des modèles de diffusion pour générer de l’image.
Pour fonctionner, ces modèles ont besoin de données. Beaucoup de données. Énormément de données. Les acteurs du marché ont donc collecté à peu près tout ce qui était disponible publiquement, voire non public mais ça c’est une autre histoire, pour faire tourner leurs entraînements. Et on ne peut pas dire qu’ils y sont allé avec le dos de la cuillère, et en mode commando avec comme mot d’ordre Ask for forgiveness, not permission (“Demandez pardon, pas la permission”).
Le problème est qu’en matière de propriété intellectuelle, ça peut poser des soucis. Un auteur n’a pas forcément envie que son contenu serve à entraîner un modèle de langage qui va ensuite écrire des bouquins vendus sur Amazon KDP et donc le concurrencer. De même pour un illustrateur. Je caricature, mais ça fait partie des alertes de la part du monde de la création contre l’IA générative.
Si aux USA le débat juridique est encore ouvert via des procédures comme celle du New York Times contre OpenAI et Microsoft, en Europe le cadre est déjà défini. C’est l’objet de ce billet.
Contexte légal
La DAMUN
Il existe en Europe une législation relative au droit d’auteur et à la collecte de données. Il s’agit de la directive 2019/790 sur le droit d’auteur et les droits voisins dans le marché unique numérique, ou DAMUN. La DAMUN a été transposée en droit français dans le code de la propriété intellectuelle.
Cette directive a introduit de nouvelles exceptions au droit d’auteur motivées par l’intérêt général dans l’Union Européenne :
- L’exception pédagogique : pour permettre la réutilisation d’extraits d’oeuvres protégées dans le cadre de l’enseignement ou de la formation professionnelle
- Le fouille de textes et de données : pour permettre à un auteur de s’opposer à la collecte de ses contenus, sauf pour la recherche scientifique
- La conservation du patrimoine culturel : pour concéder à des organismes culturels des licences d’exploitation des oeuvres dans le cadre de leurs missions
La directive dispose ainsi que les contenus librement accessibles sur Internet peuvent faire l’objet de collecte et de fouilles (ou TDM, pour text and data mining), sauf si l’auteur manifeste son opposition à celle-ci (principe de l’opt-out ). Par contre, l’auteur ne peut interdire la collecte à but scientifique ou de conservation du patrimoine culturel. Ces deux cas sont définis par l’article 1 de la DAMUN. Si une entreprise commerciale de l’IA, par exemple, collecte les contenus de l’auteur malgré ce refus, elle pourra faire l’objet d’une plainte pour contrefaçon.
L’auteur peut indiquer son opposition par plusieurs moyens, tels que des conditions d’utilisation à destination d’un humain, mais aussi par document technique qui sera lu par une machine.
La DAMUN a été éprouvée pour la première fois en octobre 2024 dans l’affaire Kneschke contre LAION. Le photographe Allemand avait attaqué l’organisation LAION à cause de présence de liens vers ses clichés dans leurs datasets. Dans le cas présent, LAION étant un organisme de recherche scientifique à but non lucratif, le tribunal de Hamburg a tranché en leur faveur, car conforme à l’exception pour la recherche.
Et les licences Creative Commons ?
Creative Commons a communiqué sa position quant à la compatibilité de son cadre de licence avec la directive DAMUN.
En résumé, les termes des licences CC et notamment les restrictions Non-Commercial et Non-Derivative ne constituent pas une réservation des droits selon l’article 4 de la DAMUN. C’est donc insuffisant, car elle n’empêchera pas le TDM à but non commercial. L’auteur doit donc expliciter les termes de son opt-out.
Déclarer son opposition sur son site
Un site web peut indiquer la réservation des droits de fouille de plusieurs façons.
Clause dans les conditions d’utilisation
Cette possibilité est principalement à destination d’un humain. Il s’agit d’indiquer dans les mentions légales d’un site web que l’auteur réserve les droits de fouille et de collecte.
Le Syndicat National de l’Édition propose une clause type dans ce but. Vous pouvez consulter celles de mon blog ou celles de mon site d’auteur pour voir un exemple d’utilisation de ce modèle.
Implémenter le TDM Reservation Protocol
Le TDM Reservation Protocol (TDMRep) est une proposition d’EDRLab adoubée par le W3C pour formaliser sa clause de réservation d’une manière “lisible par une machine” comme prévu par l’article 4 de la DAMUN. Vous pouvez l’implémenter de trois façons sur un site web.
Balises HTML meta
Le TDMRep peut être déclaré dans les balises meta
de votre site web, situées dans les entêtes. Elles indiquent si le contenu est réservé et peuvent renvoyer vers la politique.
Vous devez d’abord indiquer l’état de la tdm-reservation
. Le protocole considère 0
pour autoriser la collecte (le droit par défaut), et 1
pour réserver. Cela donne la balise meta
suivante :
<meta name="tdm-reservation" content="1">
Ensuite, vous pouvez faire pointer vers la politique de réservation. Celle-ci doit être formalisée en JSON suivant le modèle ODRL déposé sur votre serveur. Vous n’y comprenez rien ? Pas de panique, je vous donnerai un exemple avec le mien.
<meta name="tdm-policy" content="https://example.com/policies/policy.json">
Bien évidemment, adaptez l’adresse avec la réelle. Voici ce que donne le code dans son contexte :
<!DOCTYPE html>
<html lang="fr">
<head>
<meta name="tdm-reservation" content="1">
<meta name="tdm-policy" content="https://example.com/policies/policy.json">
<title>My Website</title>
</head>
<body>
(...)
</body>
</html>
Par entêtes HTTP
De la même manière que les balises meta
, vous pouvez utiliser des headers
pour indiquer la politique de réservation. Tout va dépendre du langage dans lequel votre site est développé et je ne saurais donc vous donner des exemples exhaustifs. Référez-vous à la façon dont votre langage renvoie des entêtes HTTP.
Les entêtes attendues sont les mêmes que pour du HTML :
tdm-reservation
:0
ou1
tdm-policy
:https://example.com/policies/policy.json
Cette méthode est principalement pour les fichiers non HTML, comme des images, pour ajouter des entêtes dans la requête HTTP.
Par fichier JSON sur le serveur
Vous pouvez présenter la politique de réservation grâce à un fichier nommé tdmrep.json
sur votre serveur. Celui-ci doit se trouver dans le dossier .well-known
, à la racine.
Exemple : https://www.example.com/.well-known/tdmrep.json
Si vous utilisez le générateur de sites statique Hugo comme moi, vous pouvez procéder en créant le dossier et le fichier .well-known/tdmrep.json
dans static/
. Il sera automatiquement ajouté à la génération du public.
static
├── .well-known
│ └── tdmrep.json
Le contenu attendu par le fichier est le suivant :
[
{
"location": "/",
"tdm-reservation": 1,
"tdm-policy":"https://example.com/policies/policy.json"
}
]
Vous noterez la présence d’une clé en plus : location
. Celle-ci permet d’indiquer si tout votre site (symbolisé par la racine /
) est couvert par la réservation ou seulement une partie. Par exemple, vous ne souhaitez réserver vos droits que sur les fichiers pdf
:
[
{
"location": "/*.pdf$",
"tdm-reservation": 1,
"tdm-policy":"https://example.com/policies/policy.json"
}
]
Ou encore, vous avez une politique spécifique pour les PDF et les EPUB :
[
{
"location": "/",
"tdm-reservation": 0,
"tdm-policy":"https://example.com/policies/policy.json"
},
{
"location": "/*.pdf$",
"tdm-reservation": 1,
"tdm-policy":"https://example.com/policies/policy-pdf.json"
},
{
"location": "/*.epub$",
"tdm-reservation": 1,
"tdm-policy":"https://example.com/policies/policy-epub.json"
},
]
Dans ce dernier exemple, l’auteur indique ne pas s’opposer à la collecte de ses contenus sur son site, à l’exception des pdf
et epub
qui ont chacun leur propre politique.
Il est maintenant temps de regarder ce qu’est censé contenir ce fameux fichier policy.json
!
Le fichier policy.json
Comme dit précédemment, le fichier policy.json
(que vous pouvez appeler comme vous voulez en réalité) doit être conforme au modèle ODRL, pour Open Digital Rights Language. Cette spécification étant un peu complexe, je vous propose un exemple avec le mien.
{
"@context": [
"http://www.w3.org/ns/odrl.jsonld",
{
"tdm": "http://www.w3.org/ns/tdmrep#"
}
],
"@type": "Offer",
"profile": "http://www.w3.org/ns/tdmrep",
"uid": "https://zedas.fr/policies/policy.json",
"assigner": {
"uid": "https://zedas.fr",
"vcard:fn": "Seb",
"vcard:hasEmail": "mailto:tdm@zedas.fr",
"vcard:hasAddress": {
"vcard:locality": "Lille",
"vcard:country-name": "France"
},
"vcard:hasURL": "https://zedas.fr/about/"
},
"permission": [
{
"target": "https://zedas.fr/",
"action": "tdm:mine",
"duty": [
{
"action": "obtainConsent"
}
]
}
]
}
Décryptons ce fichier :
@context
,@type
etprofile
correspondent aux métadonnées de l’offre ODRL. Elles indiquent au système qui va le lire qu’il s’agit d’un fichier de ce type.uid
: l’identifiant unique de la politique. Il s’agit de l’URL du fichier.assigner
: des informations concernant l’auteur de la politique. L’identifiant unique est ici le site Web, et j’y ai mis mon pseudo ainsi qu’une adresse e-mail dédiée. J’ai précisé des informations de localité basiques.vcard:hasURL
: vous pouvez indiquer ici le lien vers la politique en version “lisible par un humain”. Il s’agit de vos mentions légales vues au début.permission
: les droits accordés pour le text and data mining. Ici, sur la cible qui est mon site web, j’indiquer que l’actionmine
(collecte) requiert mon consentement.
Déclarer son opposition dans ses oeuvres
Outre des documents Web, les données disponibles en ligne peuvent aussi être des PDF, des EPUB, des images, et j’en passe. C’est le cas, par exemple, de ma nouvelle Bienvenue à Exiatis-4 disponible en accès libre. Ces fichiers peuvent eux aussi faire l’objet d’une déclaration de réservation du TDM de manière individuelle.
Clause dans les mentions obligatoires de l’oeuvre
En France, une publication papier ou numérique doit porter certaines mentions obligatoires. Il s’agit à minima de l’ISBN ainsi que du nom ou la raison sociale de l’éditeur, et son adresse dans le cas d’un e-book. La version papier exige plus de détails, mais ce n’est pas le sujet.
Vous pouvez profiter de ces mentions légales pour indiquer votre opposition à la collecte de texte. Faute d’avoir trouvé un exemple concret pour ce domaine, je me suis permis d’improviser une déclaration en m’inspirant du modèle du SNE cité précédemment.
L’auteur s’oppose à toutes opérations de moissonnage et fouilles de texte et des données au sens de l’article L. 122-5-3 du code de la propriété intellectuelle et de la Directive UE 2019/790 pour la présente publication.
Implémenter le TDM Reservation Protocol dans EPUB3
Le format EPUB n’étant rien d’autre qu’une archive contenant des documents HTML, il est parfaitement possible d’implémenter sa déclaration de réservation TDM Rep dedans.
Pour se faire, il faudra éditer le fichier EPUB avec l’aide d’un logiciel comme Calibre qui propose un outil dédié. Il s’agit de la même balise meta
que dans le cas d’un site Web, mais avec une petite différence :
<meta name="tdm:reservation" content="1">
<meta name="tdm:policy" content="https://example.com/policies/policy.json">
Notez bien les :
au lieu de -
dans tdm:reservation
. Ces balises peuvent être mises dans le fichier EPUB. Pour ma part, je la met dans la page de couverture.
Le protocole peut également être implémenté dans un fichier PDF.
Conclusion
Ce petit tutoriel vous a indiqué comment mentionner la réservation des droits de collecte des données et textes que vous publiez librement sur le Web. Et maintenant ? Pas grand chose de différent, en fait. Ces éléments ne protègent pas de manière active et si une entreprise peu éthique désire exploiter vos contenus, elle le fera.
Donc, ça ne sert à rien ?
On pourrait croire ça. Néanmoins, si vous n’aviez pas fait ceci, vous auriez rendu leur exploitation légale dans tous les cas. Avec cette indication, vous la rendez illicite (sauf pour la recherche scientifique, n’oubliez pas) et pouvez demander réparation. Il faut donc voir cela comme un premier pas.