Garbage Collector


The little space of a writer, tinkerer, and a coffee addict

Réserver ses droits sur la fouille de textes et données

Réserver ses droits sur la fouille de textes et données
'a painting of a thinking computer' rendered using StableDiffusion

Cela n’aura échappé à personne depuis quelques années, mais l’intelligence artificielle est désormais sur toutes les lèvres et tous les claviers. Ce qu’on appelle communément ainsi en ce moment, ou IA, ce sont avant tout des modèles de machine learning entraînés sur des jeux de données dans le but de répondre à une problématique. De nos jours, c’est surtout l’IA générative (GenAI) qui est au cœur de toutes les discussions. Nous parlons notamment ici des grands modèles language (LLM) pour produire du texte ou encore des modèles de diffusion pour générer de l’image.

Pour fonctionner, ces modèles ont besoin de données. Beaucoup de données. Énormément de données. Les acteurs du marché ont donc collecté à peu près tout ce qui était disponible publiquement, voire non public mais ça c’est une autre histoire, pour faire tourner leurs entraînements. Et on ne peut pas dire qu’ils y sont allé avec le dos de la cuillère, et en mode commando avec comme mot d’ordre Ask for forgiveness, not permission (“Demandez pardon, pas la permission”).

Le problème est qu’en matière de propriété intellectuelle, ça peut poser des soucis. Un auteur n’a pas forcément envie que son contenu serve à entraîner un modèle de langage qui va ensuite écrire des bouquins vendus sur Amazon KDP et donc le concurrencer. De même pour un illustrateur. Je caricature, mais ça fait partie des alertes de la part du monde de la création contre l’IA générative.

Si aux USA le débat juridique est encore ouvert via des procédures comme celle du New York Times contre OpenAI et Microsoft, en Europe le cadre est déjà défini. C’est l’objet de ce billet.

Contexte légal

La DAMUN

Il existe en Europe une législation relative au droit d’auteur et à la collecte de données. Il s’agit de la directive 2019/790 sur le droit d’auteur et les droits voisins dans le marché unique numérique, ou DAMUN. La DAMUN a été transposée en droit français dans le code de la propriété intellectuelle.

Cette directive a introduit de nouvelles exceptions au droit d’auteur motivées par l’intérêt général dans l’Union Européenne :

La directive dispose ainsi que les contenus librement accessibles sur Internet peuvent faire l’objet de collecte et de fouilles (ou TDM, pour text and data mining), sauf si l’auteur manifeste son opposition à celle-ci (principe de l’opt-out ). Par contre, l’auteur ne peut interdire la collecte à but scientifique ou de conservation du patrimoine culturel. Ces deux cas sont définis par l’article 1 de la DAMUN. Si une entreprise commerciale de l’IA, par exemple, collecte les contenus de l’auteur malgré ce refus, elle pourra faire l’objet d’une plainte pour contrefaçon.

L’auteur peut indiquer son opposition par plusieurs moyens, tels que des conditions d’utilisation à destination d’un humain, mais aussi par document technique qui sera lu par une machine.

La DAMUN a été éprouvée pour la première fois en octobre 2024 dans l’affaire Kneschke contre LAION. Le photographe Allemand avait attaqué l’organisation LAION à cause de présence de liens vers ses clichés dans leurs datasets. Dans le cas présent, LAION étant un organisme de recherche scientifique à but non lucratif, le tribunal de Hamburg a tranché en leur faveur, car conforme à l’exception pour la recherche.

Et les licences Creative Commons ?

Creative Commons a communiqué sa position quant à la compatibilité de son cadre de licence avec la directive DAMUN.

En résumé, les termes des licences CC et notamment les restrictions Non-Commercial et Non-Derivative ne constituent pas une réservation des droits selon l’article 4 de la DAMUN. C’est donc insuffisant, car elle n’empêchera pas le TDM à but non commercial. L’auteur doit donc expliciter les termes de son opt-out.

Déclarer son opposition sur son site

Un site web peut indiquer la réservation des droits de fouille de plusieurs façons.

Clause dans les conditions d’utilisation

Cette possibilité est principalement à destination d’un humain. Il s’agit d’indiquer dans les mentions légales d’un site web que l’auteur réserve les droits de fouille et de collecte.

Le Syndicat National de l’Édition propose une clause type dans ce but. Vous pouvez consulter celles de mon blog ou celles de mon site d’auteur pour voir un exemple d’utilisation de ce modèle.

Implémenter le TDM Reservation Protocol

Le TDM Reservation Protocol (TDMRep) est une proposition d’EDRLab adoubée par le W3C pour formaliser sa clause de réservation d’une manière “lisible par une machine” comme prévu par l’article 4 de la DAMUN. Vous pouvez l’implémenter de trois façons sur un site web.

Balises HTML meta

Le TDMRep peut être déclaré dans les balises meta de votre site web, situées dans les entêtes. Elles indiquent si le contenu est réservé et peuvent renvoyer vers la politique.

Vous devez d’abord indiquer l’état de la tdm-reservation. Le protocole considère 0 pour autoriser la collecte (le droit par défaut), et 1 pour réserver. Cela donne la balise meta suivante :

<meta name="tdm-reservation" content="1">

Ensuite, vous pouvez faire pointer vers la politique de réservation. Celle-ci doit être formalisée en JSON suivant le modèle ODRL déposé sur votre serveur. Vous n’y comprenez rien ? Pas de panique, je vous donnerai un exemple avec le mien.

<meta name="tdm-policy" content="https://example.com/policies/policy.json">

Bien évidemment, adaptez l’adresse avec la réelle. Voici ce que donne le code dans son contexte :

<!DOCTYPE html>
<html lang="fr">
	<head>
		<meta name="tdm-reservation" content="1">
		<meta name="tdm-policy" content="https://example.com/policies/policy.json">
		<title>My Website</title>
	</head>
	<body>
		(...)
	</body>
</html>

Par entêtes HTTP

De la même manière que les balises meta, vous pouvez utiliser des headers pour indiquer la politique de réservation. Tout va dépendre du langage dans lequel votre site est développé et je ne saurais donc vous donner des exemples exhaustifs. Référez-vous à la façon dont votre langage renvoie des entêtes HTTP.

Les entêtes attendues sont les mêmes que pour du HTML :

Cette méthode est principalement pour les fichiers non HTML, comme des images, pour ajouter des entêtes dans la requête HTTP.

Par fichier JSON sur le serveur

Vous pouvez présenter la politique de réservation grâce à un fichier nommé tdmrep.json sur votre serveur. Celui-ci doit se trouver dans le dossier .well-known, à la racine.

Exemple : https://www.example.com/.well-known/tdmrep.json

Si vous utilisez le générateur de sites statique Hugo comme moi, vous pouvez procéder en créant le dossier et le fichier .well-known/tdmrep.json dans static/. Il sera automatiquement ajouté à la génération du public.

static
├── .well-known
│   └── tdmrep.json

Le contenu attendu par le fichier est le suivant :

[
	{
		"location""/",
		"tdm-reservation"1,
		"tdm-policy":"https://example.com/policies/policy.json"
	}
]

Vous noterez la présence d’une clé en plus : location. Celle-ci permet d’indiquer si tout votre site (symbolisé par la racine /) est couvert par la réservation ou seulement une partie. Par exemple, vous ne souhaitez réserver vos droits que sur les fichiers pdf :

[
	{
		"location""/*.pdf$",
		"tdm-reservation"1,
		"tdm-policy":"https://example.com/policies/policy.json"
	}
]

Ou encore, vous avez une politique spécifique pour les PDF et les EPUB :

[
	{
		"location""/",
		"tdm-reservation"0,
		"tdm-policy":"https://example.com/policies/policy.json"
	},
	{
		"location""/*.pdf$",
		"tdm-reservation"1,
		"tdm-policy":"https://example.com/policies/policy-pdf.json"
	},
	{
		"location""/*.epub$",
		"tdm-reservation"1,
		"tdm-policy":"https://example.com/policies/policy-epub.json"
	},
]

Dans ce dernier exemple, l’auteur indique ne pas s’opposer à la collecte de ses contenus sur son site, à l’exception des pdf et epub qui ont chacun leur propre politique.

Il est maintenant temps de regarder ce qu’est censé contenir ce fameux fichier policy.json !

Le fichier policy.json

Comme dit précédemment, le fichier policy.json (que vous pouvez appeler comme vous voulez en réalité) doit être conforme au modèle ODRL, pour Open Digital Rights Language. Cette spécification étant un peu complexe, je vous propose un exemple avec le mien.

{
    "@context": [
        "http://www.w3.org/ns/odrl.jsonld",
        {
            "tdm": "http://www.w3.org/ns/tdmrep#"
        }
    ],
    "@type": "Offer",
    "profile": "http://www.w3.org/ns/tdmrep",
    "uid": "https://zedas.fr/policies/policy.json",
    "assigner": {
        "uid": "https://zedas.fr",
        "vcard:fn": "Seb",
        "vcard:hasEmail": "mailto:tdm@zedas.fr",
        "vcard:hasAddress": {
            "vcard:locality": "Lille",
            "vcard:country-name": "France"
        },
        "vcard:hasURL": "https://zedas.fr/about/"
    },
    "permission": [
        {
            "target": "https://zedas.fr/",
            "action": "tdm:mine",
            "duty": [
                {
                    "action": "obtainConsent"
                }
            ]
        }
    ]
}

Décryptons ce fichier :

Déclarer son opposition dans ses oeuvres

Outre des documents Web, les données disponibles en ligne peuvent aussi être des PDF, des EPUB, des images, et j’en passe. C’est le cas, par exemple, de ma nouvelle Bienvenue à Exiatis-4 disponible en accès libre. Ces fichiers peuvent eux aussi faire l’objet d’une déclaration de réservation du TDM de manière individuelle.

Clause dans les mentions obligatoires de l’oeuvre

En France, une publication papier ou numérique doit porter certaines mentions obligatoires. Il s’agit à minima de l’ISBN ainsi que du nom ou la raison sociale de l’éditeur, et son adresse dans le cas d’un e-book. La version papier exige plus de détails, mais ce n’est pas le sujet.

Vous pouvez profiter de ces mentions légales pour indiquer votre opposition à la collecte de texte. Faute d’avoir trouvé un exemple concret pour ce domaine, je me suis permis d’improviser une déclaration en m’inspirant du modèle du SNE cité précédemment.

L’auteur s’oppose à toutes opérations de moissonnage et fouilles de texte et des données au sens de l’article L. 122-5-3 du code de la propriété intellectuelle et de la Directive UE 2019/790 pour la présente publication.

Implémenter le TDM Reservation Protocol dans EPUB3

Le format EPUB n’étant rien d’autre qu’une archive contenant des documents HTML, il est parfaitement possible d’implémenter sa déclaration de réservation TDM Rep dedans.

Pour se faire, il faudra éditer le fichier EPUB avec l’aide d’un logiciel comme Calibre qui propose un outil dédié. Il s’agit de la même balise meta que dans le cas d’un site Web, mais avec une petite différence :

<meta name="tdm:reservation" content="1">
<meta name="tdm:policy" content="https://example.com/policies/policy.json">

Notez bien les : au lieu de - dans tdm:reservation. Ces balises peuvent être mises dans le fichier EPUB. Pour ma part, je la met dans la page de couverture.

tdm reservation epub

Le protocole peut également être implémenté dans un fichier PDF.

Conclusion

Ce petit tutoriel vous a indiqué comment mentionner la réservation des droits de collecte des données et textes que vous publiez librement sur le Web. Et maintenant ? Pas grand chose de différent, en fait. Ces éléments ne protègent pas de manière active et si une entreprise peu éthique désire exploiter vos contenus, elle le fera.

Donc, ça ne sert à rien ?

On pourrait croire ça. Néanmoins, si vous n’aviez pas fait ceci, vous auriez rendu leur exploitation légale dans tous les cas. Avec cette indication, vous la rendez illicite (sauf pour la recherche scientifique, n’oubliez pas) et pouvez demander réparation. Il faut donc voir cela comme un premier pas.


📑 Table of Contents

📚 Read my books

Follow me on Mastodon

🏷️ All Tags 📄 All Posts 🗺 Sitemap RSS Feed