In de toekomst zullen we minder algemene AI-chatbots zoals ChatGPT zien en meer gespecialiseerde chatbots die zijn afgestemd op onze behoeften.

Alexander Supertramp / Shutterstock

AI-technologie ontwikkelt zich snel. ChatGPT is de snelst groeiende online dienst in de geschiedenis geworden. Google en Microsoft integreren generatieve AI in hun producten. En wereldleiders omarmen AI enthousiast als hulpmiddel voor economische groei.

Nu we verder gaan dan ChatGPT en Bard, zullen we waarschijnlijk zien dat AI-chatbots minder generiek en meer gespecialiseerd worden. AI’s worden beperkt door de gegevens waaraan ze worden blootgesteld om ze beter te maken in wat ze doen – in dit geval het nabootsen van menselijke spraak en gebruikers voorzien van bruikbare antwoorden.

Bij training wordt het net vaak wijd uitgespreid, waarbij AI-systemen duizenden boeken en webpagina’s absorberen. Maar een meer selecte, gerichte set trainingsgegevens zou AI-chatbots nog nuttiger kunnen maken voor mensen die in bepaalde sectoren werken of in bepaalde gebieden wonen.

De waarde van gegevens

Een belangrijke factor in deze evolutie zijn de toenemende kosten voor het verzamelen van trainingsgegevens voor geavanceerde grote taalmodellen (LLM’s), het type AI dat ChatGPT aandrijft. Bedrijven weten dat gegevens waardevol zijn: Meta en Google verdienen miljarden aan de verkoop van advertenties op basis van gebruikersgegevens. Maar de waarde van gegevens verandert nu. Meta en Google verkopen “inzichten” in gegevens; ze investeren in analyses om veel gegevenspunten om te zetten in voorspellingen over gebruikers.

Voor OpenAI – de ontwikkelaar van ChatGPT – is data op een subtiel andere manier waardevol. Stel je een tweet voor: “De kat zat op de mat.” Deze tweet is niet waardevol voor gerichte adverteerders. Het zegt weinig over een gebruiker of zijn interesses. Misschien, bij een duwtje in de rug, zou het interesse in kattenvoer en Dr. Suess kunnen suggereren.

Maar voor OpenAI, dat LLM’s bouwt om mensachtige taal te produceren, is deze tweet waardevol als voorbeeld van hoe menselijke taal werkt. Een enkele tweet kan een AI niet leren om zinnen te construeren, maar miljarden tweets, blogposts, Wikipedia-items, enzovoort, kunnen dat zeker wel. Zo is de geavanceerde LLM GPT-4 waarschijnlijk gebouwd met gegevens die zijn geschraapt van X (voorheen Twitter), Reddit, Wikipedia en daarbuiten.

De AI-revolutie verandert het bedrijfsmodel voor datarijke organisaties. Bedrijven als Meta en Google investeren al enkele jaren in AI-onderzoek en -ontwikkeling in een poging om hun databronnen te exploiteren.

Organisaties als X en Reddit zijn begonnen met het in rekening brengen van kosten aan derden voor API-toegang, het systeem dat wordt gebruikt om gegevens van deze websites te schrapen. Dataschrapen kost bedrijven als X geld, omdat ze meer rekenkracht moeten uitgeven om zoekopdrachten uit te voeren.

Naarmate organisaties als OpenAI krachtigere versies van hun GPT LLM willen bouwen, zullen ze meer kosten moeten maken om aan gegevens te komen. Een oplossing voor dit probleem zou synthetische data kunnen zijn.

Synthetisch gaan

Synthetische gegevens worden vanaf nul gecreëerd door AI-systemen om geavanceerdere AI-systemen te trainen – zodat ze verbeteren. Ze zijn ontworpen om dezelfde taak uit te voeren als echte trainingsgegevens, maar worden gegenereerd door AI.

Het is een nieuw idee, maar het stuit op veel problemen. Goede synthetische gegevens moeten genoeg verschillen van de originele gegevens waarop ze gebaseerd zijn om het model iets nieuws te vertellen, terwijl ze genoeg op elkaar moeten lijken om het model iets nauwkeurigs te vertellen. Dit kan moeilijk te bereiken zijn. Als synthetische gegevens slechts overtuigende kopieën zijn van gegevens uit de echte wereld, kunnen de resulterende AI-modellen worstelen met creativiteit en bestaande vooroordelen verankeren.

Een ander probleem is het “Habsburgse AI” probleem. Dit suggereert dat het trainen van AI op synthetische data zal leiden tot een afname van de effectiviteit van deze systemen – vandaar de analogie met de beruchte inteelt van de koninklijke familie Habsburg. Sommige studies suggereren dat dit al gebeurt met systemen zoals ChatGPT.

Een van de redenen waarom ChatGPT zo goed is, is omdat het gebruik maakt van reinforcement learning met menselijke feedback (RLHF), waarbij mensen de output beoordelen in termen van nauwkeurigheid. Als synthetische gegevens die door een AI zijn gegenereerd onnauwkeurigheden bevatten, zullen AI-modellen die op deze gegevens zijn getraind zelf ook onnauwkeurig zijn. De vraag naar menselijke feedback om deze onnauwkeurigheden te corrigeren zal dus waarschijnlijk toenemen.

Maar terwijl de meeste mensen kunnen zeggen of een zin grammaticaal correct is, kunnen minder mensen commentaar geven op de feitelijke nauwkeurigheid ervan – vooral wanneer de output technisch of gespecialiseerd is. Onnauwkeurige output over specialistische onderwerpen wordt minder snel opgemerkt door RLHF. Als synthetische gegevens betekenen dat er meer onnauwkeurigheden te vangen zijn, kan de kwaliteit van LLM’s voor algemene doeleinden stagneren of afnemen, zelfs als deze modellen meer “leren”.

Kleine taalmodellen

Deze problemen helpen enkele opkomende trends in AI verklaren. Ingenieurs van Google hebben onthuld dat er weinig is dat derden ervan weerhoudt om LLM’s zoals GPT-3 of Google’s LaMDA AI na te maken. Veel organisaties zouden hun eigen interne AI-systemen kunnen bouwen, met behulp van hun eigen gespecialiseerde gegevens, voor hun eigen doelstellingen. Deze zullen op de lange termijn waarschijnlijk waardevoller zijn voor deze organisaties dan ChatGPT.

Onlangs merkte de Japanse overheid op dat het ontwikkelen van een Japan-gerichte versie van ChatGPT mogelijk de moeite waard is voor hun AI-strategie, omdat ChatGPT niet voldoende representatief is voor Japan. Het softwarebedrijf SAP heeft onlangs zijn AI “roadmap” gelanceerd om AI-ontwikkelingsmogelijkheden aan te bieden aan professionele organisaties. Dit zal het voor bedrijven gemakkelijker maken om hun eigen, op maat gemaakte versies van ChatGPT te bouwen.

Adviesbureaus zoals McKinsey en KPMG onderzoeken het trainen van AI-modellen voor “specifieke doeleinden”. Handleidingen voor het maken van persoonlijke versies van ChatGPT zijn gemakkelijk online te vinden. Er bestaan al open source systemen, zoals GPT4All.

Naarmate de ontwikkelingsuitdagingen voor generieke LLM’s toenemen – in combinatie met mogelijke obstakels op het gebied van regelgeving – is het mogelijk dat de toekomst van AI bestaat uit veel specifieke kleine – in plaats van grote – taalmodellen. Kleine taalmodellen kunnen het moeilijk krijgen als ze met minder gegevens worden getraind dan systemen zoals GPT-4.

Maar ze kunnen ook een voordeel hebben in termen van RLHF, omdat kleine taalmodellen waarschijnlijk worden ontwikkeld voor specifieke doeleinden. Werknemers die expertkennis hebben van hun organisatie en haar doelstellingen kunnen veel waardevollere feedback geven aan dergelijke AI-systemen, in vergelijking met generieke feedback voor een generiek AI-systeem. Dit kan de nadelen van minder gegevens ondervangen.

Stuart Mills werkt niet voor, heeft geen adviesfuncties, bezit geen aandelen in en ontvangt geen financiering van bedrijven of organisaties die baat hebben bij dit artikel en heeft geen relevante banden buiten zijn academische aanstelling bekendgemaakt.