PartenairesNewspaper WordPress Theme
FinanceGagner de l'argentL'avocat de Sarah Silverman sur ChatGPT : 'un secret ouvert et salace'

L’avocat de Sarah Silverman sur ChatGPT : ‘un secret ouvert et salace’

Demandez à ChatGPT des informations sur les mémoires de la comédienne Sarah Silverman intitulées « The Bedwetter », et le chatbot d’intelligence artificielle peut vous donner un synopsis détaillé de chaque partie du livre.

Cela signifie-t-il qu’il a “lu” et mémorisé une copie pirate ? Ou a-t-il récupéré suffisamment d’avis de clients et de discussions en ligne sur le best-seller ou la comédie musicale qu’il a inspirée pour être considéré comme un expert ?

Les tribunaux américains pourraient maintenant aider à régler cette question après que Silverman ait poursuivi OpenAI, le fabricant de ChatGPT, pour violation du droit d’auteur cette semaine, rejoignant ainsi un nombre croissant d’écrivains affirmant avoir involontairement créé les bases du boum de l’IA de la Silicon Valley.

Le procès de Silverman affirme qu’elle n’a jamais donné son autorisation à OpenAI pour ingérer la version numérique de son livre de 2010 afin de former ses modèles d’IA, et qu’il a probablement été volé à une « bibliothèque clandestine » d’œuvres pirates. Il affirme que les mémoires ont été copiées « sans consentement, sans mention de la source et sans compensation ».

C’est l’un des nombreux cas qui pourraient révéler le secret d’OpenAI et de ses concurrents concernant les précieuses données utilisées pour former des produits d’IA générateurs de texte, d’images et de musique de plus en plus utilisés. Cela soulève également des questions sur les bases éthiques et juridiques des outils que le McKinsey Global Institute estime pouvoir ajouter l’équivalent de 2,6 billions à 4,4 billions de dollars à l’économie mondiale.

« C’est un secret caché de toute l’industrie de l’apprentissage automatique », a déclaré Matthew Butterick, l’un des avocats représentant Silverman et d’autres auteurs dans le cadre d’une action collective. « Ils adorent les données de livres et ils les obtiennent à partir de ces sites illicites. Nous dénonçons pratiquement toute cette pratique. »

❤️️ Ca peut vous plaire aussi ❤️️ :  Buzzfeed News : Triste disparition d'un site intelligent et innovant qui avait ouvert la voie au journalisme numérique.

OpenAI a refusé de commenter les allégations. Un autre procès intenté par Silverman fait des affirmations similaires concernant un modèle d’IA développé par Facebook et par Meta, la société mère d’Instagram, qui a également refusé de commenter.

Il pourrait être difficile pour les écrivains de gagner cette affaire, notamment après le succès de Google dans la défense des actions en justice intentées contre sa bibliothèque de livres en ligne. En 2016, la Cour suprême des États-Unis a maintenu les décisions des tribunaux inférieurs qui ont rejeté les plaintes des auteurs selon lesquelles la numérisation par Google de millions de livres et leur présentation à une partie du public constituaient une « violation massive du droit d’auteur ».

« Je pense que ce que OpenAI a fait avec les livres est très proche de ce que Google a été autorisé à faire avec son projet Google Books, et sera donc légal », a déclaré Deven Desai, professeur agrégé de droit et d’éthique à l’Institut de technologie de Géorgie.

Alors que seuls quelques-uns ont intenté des poursuites, notamment Silverman et les romanciers à succès Mona Awad et Paul Tremblay, les préoccupations concernant les pratiques de construction d’IA de l’industrie technologique ont pris de l’ampleur dans les communautés littéraires et artistiques.

D’autres auteurs de renom, dont Nora Roberts, Margaret Atwood, Louise Erdrich et Jodi Picoult, ont signé le mois dernier une lettre adressée aux PDG d’OpenAI, de Google, de Microsoft, de Meta et d’autres développeurs d’IA pour les accuser de pratiques d’exploitation dans la création de chatbots qui « imitent et régurgitent » leur langage, leur style et leurs idées.

❤️️ Ca peut vous plaire aussi ❤️️ :  Dernières nouvelles des Brics : La réduction de la dépendance à l'égard du dollar est à l'ordre du jour du sommet

« Des millions de livres, d’articles, d’essais et de poèmes protégés par le droit d’auteur fournissent la « nourriture » aux systèmes d’IA, des repas sans facture », indique la lettre ouverte organisée par l’Authors Guild et signée par plus de 4 000 écrivains. « Vous dépensez des milliards de dollars pour développer la technologie de l’IA. Il est donc juste que vous nous indemnisiez pour l’utilisation de nos écrits, sans lesquels l’IA serait banale et extrêmement limitée ».

Les systèmes d’IA derrière des produits populaires tels que ChatGPT, le Bard de Google et le chatbot de Microsoft, Bing, sont connus sous le nom de modèles de langage de grande envergure qui ont « appris » en analysant et en repérant des modèles dans un vaste corpus de textes ingérés. Ils ont impressionné le public par leur excellente maîtrise de la langue humaine, bien qu’ils soient également connus pour leur propension à proférer des mensonges.

Alors que les modèles ont également été formés sur des articles de presse et des flux de médias sociaux, les livres sont particulièrement précieux, comme OpenAI l’a reconnu dans un article de 2018 cité dans le procès de Silverman.

La première version du grand modèle de langage d’OpenAI, appelé GPT-1, s’appuyait sur un ensemble de données compilé par des chercheurs universitaires appelé le Corpus de livres de Toronto, qui comprenait des milliers de livres non publiés, certains dans les genres de l’aventure, de la fantasy et du romance.

« Il contient des tronçons de texte contigus, ce qui permet au modèle génératif de se conditionner sur des informations à long terme », ont déclaré les chercheurs d’OpenAI à l’époque. D’autres entreprises technologiques, telles que Google et Amazon, se sont également appuyées sur les mêmes données, qui ne sont plus disponibles sous leur forme originale.

❤️️ Ca peut vous plaire aussi ❤️️ :  Rolex va acheter Bucherer dans une transaction réinitialisant le marché des montres de luxe

Mais depuis lors, OpenAI et d’autres développeurs d’IA de premier plan sont devenus plus secrets quant à leurs sources de données, même s’ils ont ingéré des ensembles encore plus importants d’œuvres écrites. Butterick a déclaré que des preuves circonstancielles indiquent l’utilisation de bibliothèques clandestines de contenus piratés contenant les œuvres de Silverman et d’autres plaignants.

« C’est important pour leurs modèles car les livres sont la meilleure source d’écriture longue, bien éditée et cohérente », a-t-il déclaré. « Vous ne pouvez tout simplement pas avoir un modèle de langue de haute qualité sans avoir de livres dans vos données d’entraînement ».

Il pourrait s’écouler des semaines voire des mois avant qu’OpenAI ne doive répondre formellement. Mais une fois que l’affaire sera engagée, les dirigeants technologiques pourraient devoir témoigner, sous serment, sur les sources de livres qu’ils ont téléchargées.

« Autant que nous sachions, l’autre partie ne l’a pas nié », a déclaré Joseph Saveri, un autre des avocats de Silverman. « Ils n’ont pas d’explication alternative à cela ».

Saveri a déclaré que les auteurs ne demandent pas nécessairement aux entreprises technologiques de jeter leurs algorithmes et leurs données d’entraînement et de recommencer à zéro, bien que la Federal Trade Commission des États-Unis ait établi un précédent en obligeant les entreprises à détruire des données d’IA obtenues de manière illégale. Mais une sorte de compensation pour les écrivains est nécessaire, a-t-il ajouté.

Retour à l’accueil Worldnet

Mettre une note à ce post
Abonnez-vous à la newsletter (gratuit)

Rejoindre la newsletter gratuitement

OBTENEZ UN ACCÈS COMPLET EXCLUSIF AU CONTENU PREMIUM

SOUTENIR LE JOURNALISME À BUT NON LUCRATIF

ANALYSE D'EXPERTS ET TENDANCES ÉMERGENTES EN MATIÈRE DE PROTECTION DE L'ENFANCE ET DE JUSTICE JUVÉNILE

WEBINAIRES VIDÉO THÉMATIQUES

Obtenez un accès illimité à notre contenu EXCLUSIF et à nos archives d'histoires d'abonnés.

Contenu exclusif

Article récents

Plus d'articles