OpenAI's contentdeal met de FT is een poging om meer juridische uitdagingen te voorkomen - en een AI 'data apocalypse'.

Hadrian / Shutterstock

OpenAI’s nieuwe “strategische partnerschap” en licentieovereenkomst met de Financial Times (FT) volgt op soortgelijke deals tussen het Amerikaanse techbedrijf en uitgevers als Associated Press, de Duitse mediagigant Axel Springer en de Franse krant Le Monde.

OpenAI zal een licentie nemen op de inhoud van de FT om te gebruiken als trainingsgegevens voor zijn producten, waaronder opvolgers van zijn AI-chatbot ChatGPT. De AI-systemen die door OpenAI worden ontwikkeld, worden blootgesteld aan deze gegevens om hun prestaties op het gebied van taalgebruik, context en nauwkeurigheid te verbeteren. De FT ontvangt een niet nader genoemd bedrag als onderdeel van de deal.

Dit gebeurt tegen een wereldwijde achtergrond van juridische uitdagingen door mediabedrijven die beweren inbreuk te maken op het auteursrecht over het gebruik van hun content om AI-producten te trainen. De meest in het oog springende zaak is die van de New York Times tegen OpenAI. Er is ook een angst onder techbedrijven dat, naarmate ze meer en geavanceerdere producten bouwen, het internet niet langer genoeg gegevens van hoge kwaliteit zal hebben om deze AI-tools te trainen.

Wat betekent deze deal voor de FT? Er is nog steeds een gebrek aan details over partnerschappen zoals deze, afgezien van het feit dat de FT betaald zal worden voor zijn content. Er zijn echter aanwijzingen voor andere potentiële voordelen.

In een verklaring benadrukte John Ridding, chief-executive van de FT Group, dat de krant zich inzet voor “menselijke journalistiek”. Maar hij erkende ook dat de nieuwsbusiness niet stil kan blijven zitten: “We willen graag de praktische resultaten met betrekking tot nieuwsbronnen en AI verkennen door middel van dit partnerschap … We waarderen de kans om deel uit te maken van de ontwikkelingslus als mensen content op nieuwe manieren ontdekken.”

De FT heeft eerder gezegd dat het “verantwoord zou experimenteren” met AI-tools en journalisten zou trainen om generatieve AI te gebruiken voor “story discovery”.

OpenAI is er waarschijnlijk op gebrand om deze samenwerking aan te kondigen omdat het hoopt dat het zal helpen bij het oplossen van de meest acute problemen waar zijn paradepaardjes mee te maken hebben. Het eerste probleem is dat deze generatieve AI-tools soms dingen verzinnen, een fenomeen dat bekend staat als hallucinatie. Het gebruik van betrouwbare inhoud van de FT en andere betrouwbare bronnen zou daarbij moeten helpen.

Het tweede probleem is dat het zou kunnen helpen bij het compenseren van de juridische controle waar OpenAI mee te maken heeft. Het ondertekenen van officiële deals met nieuwsbronnen geeft het techbedrijf wat reputatieschade, omdat het laat zien dat het probeert het goed te maken met de journalistieke wereld. Het biedt mogelijk ook meer juridische zekerheid in de toekomst.

Varavin88 / Shutterstock

De gelicenseerde inhoud van de FT – en andere mediabronnen – zou ChatGPT en de aankomende GPT-5 kunnen voorzien van meer specifieke, gerefereerde antwoorden aan gebruikers. Gemini, Google’s ChatGPT concurrent, probeert dit al te doen door Google zoekopdrachten te geven die de beweringen die het doet ondersteunen. Door resultaten direct van de bron te krijgen, heeft OpenAI betrouwbaarder bewijs om te doorzoeken en op te trainen.

Dit lijkt de trend van “retrieval-augmented generation” (RAG) te volgen die steeds populairder wordt in de AI-wereld. RAG is een techniek waarbij een groot taalmodel (de technologie die achter AI-chatbots zoals ChatGPT zit) kan worden voorzien van een database met kennis die kan worden doorzocht ter ondersteuning van wat de chatbot al weet. Dit is een beetje zoals een examen afleggen met een tekstboek voor je open.

Dit helpt het risico op hallucinatie te verminderen, waarbij de AI gezaghebbend een antwoord produceert dat echt lijkt maar eigenlijk verzonnen is. Toegang hebben tot een database van betrouwbare journalistiek helpt de betrouwbaarheidsproblemen van AI-producten te compenseren die ontstaan doordat ze op het open internet zijn getraind.

Samenwerkingsprogramma

Er zit een subtekst aan dit wereldwijde mediapartnerschapsprogramma die niet over de wet of ethiek gaat. OpenAI heeft naarmate de tijd verstrijkt steeds meer gegevens nodig om grote verbeteringen te kunnen blijven leveren door middel van upgrades van zijn AI-producten. Toch hebben deze producten geen hoogwaardige trainingsgegevens meer van het open internet.

Dit komt, in ieder geval gedeeltelijk, doordat er nu een wildgroei is van AI-inhoud op het web. Dit ondermijnt mogelijk OpenAI’s voortdurende behoefte om zijn partners, overheden en investeerders te bewijzen dat het grote verbeteringen kan leveren aan zijn paradepaardjes.

De rechtszaak tegen de New York Times beweert dat producten zoals ChatGPT een bedreiging vormen voor mediabedrijven. Wat de uitkomst van deze zaak ook is, het is in het belang van OpenAI om zijn bronnen van trainingsgegevens, waaronder mediabedrijven, productief en economisch levensvatbaar te houden. Het succes van ChatGPT is, voorlopig althans, sterk verbonden met het succes van de mensen en organisaties die de gegevens produceren die het bruikbaar maken.

PR vanuit de AI-industrie heeft veel gedaan om het idee van onvermijdelijkheid te bevorderen: dat AI, in de vorm van producten zoals ChatGPT, industrieën zal transformeren – en het leven van mensen in het algemeen. Toch faalt technologie voortdurend. De FT deal benadrukt de dynamische spanning die bestaat tussen AI en de industrieën die erdoor veranderen. ChatGPT heeft nu de betrouwbare journalistiek nodig die zijn eigen generatieve capaciteiten en trainingsmethoden hebben helpen ondermijnen.

Het idee dat generatieve AI het internet heeft vergiftigd is niet nieuw. Sommige AI-onderzoekers hebben de verspreiding van AI-gegenereerde rommel op het internet vergeleken met hoe radioactieve besmetting van metalen staalfabrikanten in de jaren 1950 dwong om te gaan duiken naar staal van scheepswrakken die voor het nucleaire tijdperk waren gemaakt. Dit pre-nucleaire staal was nodig voor bepaalde toepassingen, zoals in deeltjesversnellers en geigertellers.

Op een vergelijkbare manier lijkt het voor OpenAI en bedrijven als OpenAI geen haalbare kaart om haar producten te trainen op data “scraps”.

Mike Cook werkt niet voor, heeft geen adviesfuncties, bezit geen aandelen in en ontvangt geen financiering van bedrijven of organisaties die baat hebben bij dit artikel, en heeft geen relevante banden bekendgemaakt buiten zijn academische aanstelling.