De rechtszaak van de New York Times over AI auteursrechten

De rechtszaak van de New York Times over AI auteursrechten laat zien dat vergeving misschien niet beter is dan toestemming

pio3 / Shutterstock

De rechtszaak van de New York Times (NYT) tegen OpenAI en Microsoft heeft een nieuwe grens geopend in de voortdurende juridische uitdagingen die het gebruik van auteursrechtelijk beschermde gegevens met zich meebrengt voor het “trainen” of verbeteren van generatieve AI.

Er lopen al verschillende rechtszaken tegen AI-bedrijven, waaronder een rechtszaak die Getty Images heeft aangespannen tegen StabilityAI, dat de Stable Diffusion online tekst-naar-beeld generator maakt. Auteurs George R.R. Martin en John Grisham hebben ook rechtszaken aangespannen tegen ChatGPT-eigenaar OpenAI vanwege copyrightclaims. Maar de NYT zaak is niet “meer van hetzelfde” omdat het interessante nieuwe argumenten in de mix gooit.

De rechtszaak richt zich op de waarde van de trainingsgegevens en een nieuwe vraag met betrekking tot reputatieschade. Het is een krachtige mix van handelsmerken en auteursrecht en één die de verdediging tegen fair use, waar men zich meestal op beroept, op de proef kan stellen.

De zaak zal ongetwijfeld nauwlettend in de gaten worden gehouden door mediaorganisaties die de gebruikelijke “laten we vergiffenis vragen, geen toestemming” benadering van trainingsgegevens ter discussie willen stellen. Trainingsgegevens worden gebruikt om de prestaties van AI-systemen te verbeteren en bestaan over het algemeen uit informatie uit de echte wereld, vaak afkomstig van het internet.

De rechtszaak presenteert ook een nieuw argument – dat niet naar voren is gebracht door andere, vergelijkbare zaken – dat te maken heeft met iets dat “hallucinaties” wordt genoemd, waarbij AI-systemen valse of misleidende informatie genereren maar deze als feit presenteren. Dit argument zou wel eens een van de krachtigste in de zaak kunnen zijn.

Met name de zaak van de NYT roept drie interessante invalshoeken op ten opzichte van de gebruikelijke aanpak. Ten eerste dat de inhoud van de NYT door hun reputatie van betrouwbaar nieuws en betrouwbare informatie meer waarde en wenselijkheid heeft als trainingsgegevens voor gebruik in AI.

Ten tweede dat vanwege de paywall de reproductie van artikelen op verzoek commercieel schadelijk is. Ten derde dat ChatGPT “hallucinaties” reputatieschade toebrengen aan de New York Times door, in feite, valse toeschrijving.

Dit is niet zomaar een auteursrechtgeschil over generatieve AI. Het eerste argument van de NYT is dat de trainingsgegevens die gebruikt worden door OpenAI auteursrechtelijk beschermd zijn, en dus beweren ze dat de trainingsfase van ChatGPT het auteursrecht heeft geschonden. We hebben dit soort argumenten eerder gezien in andere geschillen.

Eerlijk gebruik?

De uitdaging voor dit soort aanvallen is het fair use schild. In de VS is fair use een wettelijke doctrine die het gebruik van auteursrechtelijk beschermd materiaal onder bepaalde omstandigheden toestaat, zoals in nieuwsberichten, academisch werk en commentaar.

OpenAI heeft tot nu toe zeer voorzichtig gereageerd, maar een belangrijke stelling in een verklaring van het bedrijf is dat hun gebruik van online data inderdaad onder het principe van “fair use” valt.

Anticiperend op de moeilijkheden die zo’n fair use verdediging zou kunnen veroorzaken, heeft de NYT een iets andere invalshoek gekozen. In het bijzonder probeert het zijn gegevens te onderscheiden van standaardgegevens. De NYT wil de nauwkeurigheid, betrouwbaarheid en het prestige van zijn verslaggeving gebruiken. Het beweert dat dit een bijzonder aantrekkelijke dataset oplevert.

Sam Altman

Sam Altman van OpenAI: het bedrijf noemt de fair use-verdediging in zijn reactie op de rechtszaak.
Jamesonwu1972 / Shutterstock

Het stelt dat zijn artikelen als gerenommeerde en betrouwbare bron extra gewicht en betrouwbaarheid hebben bij het trainen van generatieve AI en deel uitmaken van een datasubset die extra gewicht krijgt bij die training.

Het stelt dat ChatGPT door het grotendeels reproduceren van artikelen op verzoek, de NYT, die een betaalsysteem heeft, bezoekers en inkomsten kan ontzeggen die het anders zou ontvangen. Deze introductie van een aspect van commerciële concurrentie en commercieel voordeel lijkt bedoeld om de gebruikelijke fair use-verdediging die gebruikelijk is bij deze claims af te wenden.

Het zal interessant zijn om te zien of de bewering van speciale weging in de trainingsgegevens effect heeft. Als dat zo is, zet het een pad uit voor andere mediaorganisaties om het gebruik van hun verslaggeving in de trainingsgegevens zonder toestemming aan te vechten.

Het laatste element van de claim van de NYT biedt een nieuwe invalshoek voor de uitdaging. Het suggereert dat er schade wordt toegebracht aan het merk NYT door het materiaal dat ChatGPT produceert. Hoewel het bijna als een bijkomstigheid in de klacht wordt gepresenteerd, zou het wel eens de claim kunnen zijn die Open AI de meeste problemen oplevert.

Dit is het argument met betrekking tot AI “hallucinaties”. De NYT stelt dat dit wordt verergerd doordat ChatGPT de informatie presenteert als zijnde afkomstig van de NYT.

De krant suggereert verder dat consumenten kunnen handelen op basis van de samenvatting die ChatGPT geeft, denkend dat de informatie van de NYT komt en te vertrouwen is. De reputatieschade wordt veroorzaakt doordat de krant geen controle heeft over wat ChatGPT produceert.

Dit is een interessante uitdaging om mee af te sluiten. “Hallucinatie” is een erkend probleem bij AI-gegenereerde reacties en de NYT stelt dat de reputatieschade misschien niet gemakkelijk te herstellen is.

De claim van de NYT opent een aantal nieuwe aanvalslinies die de focus verleggen van het auteursrecht naar de manier waarop de auteursrechtelijk beschermde gegevens door ChatGPT aan gebruikers worden gepresenteerd en de waarde van die gegevens voor de krant. Dit is veel lastiger te verdedigen voor OpenAI.

Deze zaak zal nauwlettend in de gaten worden gehouden door andere media-uitgevers, vooral die achter betaalmuren, en in het bijzonder met het oog op de wisselwerking met de gebruikelijke fair use-verdediging.

Als wordt erkend dat de dataset van de NYT de “verbeterde waarde” heeft die het beweert te hebben, kan het de weg vrijmaken voor het te gelde maken van die dataset voor het trainen van AI in plaats van de “vergeving, geen toestemming” benadering die vandaag de dag gangbaar is.

De conversatie

Peter Vaughan werkt niet voor, heeft geen adviesfuncties, bezit geen aandelen in en ontvangt geen financiering van bedrijven of organisaties die baat zouden hebben bij dit artikel en heeft geen relevante banden bekendgemaakt buiten zijn academische aanstelling.

Ubergeek Loves Coolblue

Zou je na het lezen van deze artikel een product willen aanschaffen?
Bezoek dan Coolblue en ontdek hun uitgebreide assortiment.