ven. Sep 22nd, 2023
Rate this post

Deux auteurs basés aux États-Unis ont récemment poursuivi OpenAI devant un tribunal fédéral de San Francisco pour violation du droit d’auteur.

Les tribunaux doivent actuellement traiter la question de savoir si une violation du droit d’auteur s’est déjà produite par l’utilisation d’œuvres protégées par le droit d’auteur pour former des systèmes d’IA par OpenAI.

Mercredi dernier, deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco. Ils affirment que l’entreprise a abusé de leurs travaux pour former leur système d’intelligence artificielle générative ChatGPT. les livres sont un « Ingrédient clé » pour des dates telles qu’elles « les meilleurs exemples de textes longs de haute qualité » offre.

Recours collectif pour faire respecter le droit d’auteur

Le 28 juin, deux écrivains du Massachusetts, Paul Tremblay et Mona Awad, représentés par le cabinet d’avocats Joseph Saveri et Matthew Butterick, ont déposé un recours collectif putatif contre OpenAI. Ils ont allégué, entre autres, une violation du droit d’auteur, des violations du Digital Millennium Copyright Act et un enrichissement sans cause.

La société de recherche en intelligence artificielle soutenue par Microsoft, OpenAI, a lancé ChatGPT en novembre 2022. Le modèle d’IA générative répond à la saisie de texte de l’utilisateur dans une conversation de type humain. Deux mois seulement après son lancement, le système d’IA est devenu l’application grand public à la croissance la plus rapide. Déjà en janvier 2023, il a atteint 100 millions d’utilisateurs actifs.

OpenAI

Comme preuve d’une telle violation du droit d’auteur, les auteurs ont cité ChatGPT sur demande « très précise » résumés compilés de ses romans. Ils soutiennent que cela « n’est possible que si ChatGPT a été formé en relation avec les œuvres protégées par le droit d’auteur des plaignants ». Le procès contre OpenAI déclare:

« Parce que le système d’IA ne peut pas fonctionner sans les informations extraites du matériel, les logiciels connus sous le nom de grands modèles de langage qui alimentent ChatGPT enfreignent eux-mêmes des œuvres dérivées créées sans l’autorisation des plaignants et en violation de leurs droits exclusifs en vertu de la loi sur le droit d’auteur.  » est devenu. […]

Ils ont copié les livres à partir d’un site Web appelé Smashwords.com, qui héberge des romans inédits disponibles gratuitement pour les lecteurs. Cependant, ces romans sont pour la plupart soumis au droit d’auteur. Ils ont été copiés dans l’ensemble de données BookCorpus sans consentement, attribution ou compensation aux auteurs.

Les auteurs se plaignent qu’OpenAI ait illégalement inclus des données de près de 300 000 livres dans sa formation pour former son système d’IA. Comme l’a rapporté Hollywoodreporter, OpenAI a spécifiquement annoncé en juin 2018 que « qu’il fournira à GPT-1 – la première itération de son grand modèle linguistique – une collection de plus de 7 000 romans sur BookCorpus ». La sélection a été faite par une équipe de chercheurs en IA.

Voir aussi  La Russie prévoit de débloquer les sites Web pirates

Selon le procès, les versions ultérieures des modèles de langage d’OpenAI ont été formées sur de plus grandes quantités d’œuvres protégées par le droit d’auteur. Dans une publication de 2020 présentant OpenAI GPT-3, la société a déclaré que 15 % de son ensemble de données de formation étaient dépensés « deux corpus de livres sur Internet » venait de. ceux qu’ils appelaient « Livres1 » et « Livres2 ».

OpenAI a-t-il également utilisé des bibliothèques fantômes comme source de formation à l’IA ?

Les plaignants ont également affirmé que les données utilisées pour former ChatGPT provenaient de sources illégitimes. Il s’agit notamment de bibliothèques fantômes illégales telles que Library Genesis, Z-Library et Sci-Hub, qui proposent des livres protégés par le droit d’auteur sans autorisation. Selon le Hollywood Reporter, l’avocat des auteurs, Joseph Saveri, a déclaré :

« Ces bibliothèques fantômes apparemment illégales intéressent depuis longtemps la communauté de formation en IA : par exemple, un ensemble de données de formation en IA appelé « Books3″ publié par EleutherAI en décembre 2020 contient une réplique de la collection de la bibliothèque et contient près de 200 000 livres ».

OpenAI ne divulgue plus d’informations sur les sources de son ensemble de données. Ceci est nécessaire « compte tenu du paysage concurrentiel et des implications de sécurité de grands modèles comme GPT-4 »la société a souligné l’année dernière.

Règles de justice : violation du droit d’auteur ou utilisation équitable ?

Le procès demande un procès devant jury et l’octroi de dommages-intérêts et d’honoraires d’avocat. En outre, les plaignants demandent une injonction permanente, y compris des modifications à ChatGPT.

Paul Tremblay est auteur de romans de genre dont La Cabane du bout du monde. L’œuvre a été filmée par le réalisateur M. Night Shyamalan sous « Knock at the Cabin ». Incidemment, le titre a également été publié en allemand sous le nom de « Das Haus am Ende der Welt ».

Voir aussi  Spotify : une enquête indique une augmentation des prix avec l'option d'écoute Hi-Fi

Mona Awad est romancière et professeure adjointe au programme « Écriture créative » à l’Université de Syracuse. Elle a publié des livres tels que 13 façons de regarder une grosse fille, Bunny et Rouge. Le premier roman d’Awad, 13 Ways of Looking at a Fat Girl, a été présélectionné pour le prix Scotiabank Giller et a reçu le prix du premier roman d’Amazon.ca.