De rechtszaak van The New York Times tegen OpenAI kan grote gevolgen hebben voor de ontwikkeling van machine-intelligentie

Tada afbeeldingen / Shutterstock

In 1954 berichtte de wetenschapscorrespondent van de Guardian over “elektronische hersenen”, die een vorm van geheugen hadden waarmee ze informatie, zoals de toewijzing van vliegtuigstoelen, binnen enkele seconden konden opvragen.

Tegenwoordig is het idee van computers die informatie opslaan zo gewoon dat we niet eens meer nadenken over wat woorden als “geheugen” eigenlijk betekenen. In de jaren 1950 was deze taal echter nieuw voor de meeste mensen, en het idee van een “elektronisch brein” was zeer waarschijnlijk.

In 2024 heeft je magnetron meer rekenkracht dan alles wat in de jaren 1950 hersenen werd genoemd.
hersenen werd genoemd in de jaren 1950, maar de wereld van kunstmatige intelligentie stelt taal – en advocaten – voor nieuwe uitdagingen. Vorige maand spande de krant New York Times een rechtszaak aan tegen OpenAI en Microsoft, de eigenaars van de populaire AI-gebaseerde tekstgeneratietool ChatGPT, over het vermeende gebruik van artikelen van de Times in de gegevens die ze gebruiken om hun systemen te trainen (verbeteren) en te testen.

Ze beweren dat OpenAI het auteursrecht heeft geschonden door hun journalistiek te gebruiken als onderdeel van het creatieproces van ChatGPT. Door dit te doen, zo beweert de rechtszaak, hebben ze een concurrerend product gecreëerd dat hun bedrijf bedreigt. OpenAI heeft tot nu toe zeer terughoudend gereageerd, maar een van de belangrijkste uitgangspunten in een verklaring van het bedrijf is dat hun gebruik van online data valt onder het principe dat bekend staat als “fair use”. Dit komt omdat OpenAI beweert dat ze het werk transformeren in iets nieuws tijdens het proces – de tekst die wordt gegenereerd door ChatGPT.

De kern van deze kwestie is de kwestie van het gebruik van gegevens. Welke gegevens mogen bedrijven als
OpenAI het recht om gegevens te gebruiken, en wat betekenen concepten als “transformeren” echt
werkelijk betekenen in deze context? Vragen als deze, over de gegevens waarop we AI-systemen of modellen zoals ChatGPT trainen, blijven een hevig academisch strijdtoneel. De wet loopt vaak achter op het gedrag van de industrie.

Als je AI hebt gebruikt om e-mails te beantwoorden of werk voor je samen te vatten, zie je ChatGPT misschien als een doel dat de middelen heiligt. Maar het zou ons misschien zorgen moeten baren als de enige manier om dat te bereiken is door specifieke bedrijfsentiteiten vrij te stellen van wetten die voor iedereen gelden.

Dat zou niet alleen de aard van het debat rond copyrightrechtszaken zoals deze kunnen veranderen, maar het heeft ook de potentie om de manier waarop samenlevingen hun rechtssysteem inrichten te veranderen.

Lees meer:
ChatGPT: wat de wet zegt over wie de auteursrechten van AI-gegenereerde inhoud bezit

Fundamentele vragen

Zaken als deze kunnen netelige vragen oproepen over de toekomst van rechtssystemen, maar ze kunnen ook vragen oproepen over de toekomst van AI-modellen zelf. De New York Times is van mening
dat ChatGPT het voortbestaan van de krant op de lange termijn bedreigt. Op dit punt zegt OpenAI in zijn verklaring dat het samenwerkt met nieuwsorganisaties om nieuwe mogelijkheden te bieden in de journalistiek. Het bedrijf zegt dat het als doel heeft “een gezond nieuws-ecosysteem te ondersteunen” en “een goede partner te zijn”.

Zelfs als we geloven dat AI-systemen een noodzakelijk onderdeel zijn van de toekomst van onze samenleving, lijkt het een slecht idee om de gegevensbronnen te vernietigen waarop ze oorspronkelijk zijn
waarop ze oorspronkelijk zijn getraind. Deze zorg wordt gedeeld door creatieve ondernemingen als de New York Times, auteurs als George R.R. Martin en ook de online encyclopedie Wikipedia.

Voorstanders van het op grote schaal verzamelen van gegevens – zoals die gebruikt worden om Large Language
modellen (LLM’s), de technologie die ten grondslag ligt aan AI-chatbots zoals ChatGPT, beweren dat AI-systemen de gegevens waarop ze trainen “transformeren” door te “leren” van hun datasets en vervolgens iets nieuws te creëren.

OpenAI CEO Sam Altman is een bekende naam geworden onder de technologieleiders van Silicon Valley.
Jamesonwu1972 / Shutterstock

Wat ze in feite bedoelen is dat onderzoekers gegevens verstrekken die door mensen zijn geschreven en
deze systemen vragen om de volgende woorden in de zin te raden, zoals ze zouden doen bij een echte vraag van een gebruiker. Door deze antwoorden te verbergen en vervolgens te onthullen, kunnen onderzoekers een binair “ja” of “nee” antwoord geven dat AI-systemen helpt om accurate voorspellingen te doen. Daarom hebben LLM’s enorme hoeveelheden geschreven teksten nodig.

Als we de artikelen van de website van de New York Times zouden kopiëren en mensen zouden laten betalen voor toegang, zouden de meeste mensen het ermee eens zijn dat dit “systematische diefstal op grote schaal” zou zijn (zoals de rechtszaak van de krant het zegt). Maar het verbeteren van de nauwkeurigheid van een AI door gegevens te gebruiken als leidraad, zoals hierboven getoond, is ingewikkelder dan dit.

Bedrijven als OpenAI slaan hun trainingsgegevens niet op en beweren dus dat de artikelen van de New York Times die in de dataset worden ingevoerd, niet daadwerkelijk worden hergebruikt. Een tegenargument voor deze verdediging van AI is echter dat er bewijs is dat systemen zoals ChatGPT verbatim fragmenten uit hun trainingsgegevens kunnen “lekken”. OpenAI zegt dat dit een “zeldzame bug” is.

Het suggereert echter dat deze systemen een deel van de gegevens waarop ze zijn getraind opslaan en onthouden – onbedoeld – en deze woordelijk kunnen opdreunen wanneer ze op specifieke manieren worden gevraagd. Dit zou alle paywalls omzeilen die een publicatie met winstoogmerk kan plaatsen om haar intellectuele eigendom te beschermen.

Taalgebruik

Maar wat waarschijnlijk op de langere termijn invloed zal hebben op de manier waarop we wetgeving in dit soort gevallen benaderen, is ons taalgebruik. De meeste AI-onderzoekers zullen je vertellen dat het woord “leren” een erg zwaar en onnauwkeurig woord is om te beschrijven wat AI eigenlijk doet.

De vraag moet gesteld worden of de wet in zijn huidige vorm voldoende is om mensen te beschermen en te ondersteunen terwijl de maatschappij een enorme verschuiving naar het AI-tijdperk doormaakt.
Of iets voortbouwt op een bestaand auteursrechtelijk beschermd werk op een manier die
anders dan het origineel wordt “transformatief gebruik” genoemd en is een verdediging die door OpenAI wordt gebruikt.

Deze wetten zijn echter ontworpen om mensen aan te moedigen om te remixen, recombineren en
te experimenteren met werk dat al is uitgebracht in de buitenwereld. Dezelfde wetten zijn niet echt ontworpen om multi-miljarden-dollar technologieproducten te beschermen die werken met een snelheid en schaal die vele ordes van grootte groter zijn dan waar een menselijke schrijver naar zou kunnen streven.

De problemen met veel van de verdedigingen van grootschalige gegevensverzameling en -gebruik is
dat ze vertrouwen op een vreemd gebruik van de Engelse taal. We zeggen dat AI “leert”, dat het “begrijpt”, dat het kan “denken”. Dit zijn echter analogieën, geen precieze technische taal.

Net als in 1954, toen mensen naar het moderne equivalent van een kapotte
rekenmachine en het een “brein” noemden, gebruiken we oude taal om met compleet nieuwe concepten te worstelen. Hoe we het ook noemen, systemen zoals ChatGPT werken niet zoals onze hersenen en AI-systemen spelen niet dezelfde rol in de maatschappij als mensen.

Net zoals we in de jaren 1950 nieuwe woorden en een nieuw algemeen begrip van technologie moesten ontwikkelen om computers te begrijpen, moeten we in de jaren 2020 misschien nieuwe taal en nieuwe wetten ontwikkelen om onze samenleving te beschermen.

Mike Cook werkt niet voor, heeft geen adviesfuncties, bezit geen aandelen in en ontvangt geen financiering van bedrijven of organisaties die baat zouden hebben bij dit artikel en heeft geen relevante banden bekendgemaakt buiten zijn academische aanstelling.