ChatGPT worstelt met Wordle puzzels, wat veel zegt over hoe het werkt

shutterstock Shutterstock / DVKi

De AI-chatbot bekend als ChatGPT, ontwikkeld door het bedrijf OpenAI, heeft de aandacht en verbeelding van het publiek getrokken. Sommige toepassingen van de technologie zijn echt indrukwekkend, zoals zijn vermogen om complexe onderwerpen samen te vatten of lange gesprekken te voeren.

Het is geen verrassing dat andere AI-bedrijven zich hebben gehaast om hun eigen grote taalmodellen (LLM’s) – de naam voor de technologie die ten grondslag ligt aan chatbots zoals ChatGPT – uit te brengen. Sommige van deze LLM’s zullen worden opgenomen in andere producten, zoals zoekmachines.

Met de indrukwekkende mogelijkheden in gedachten besloot ik de chatbot te testen op Wordle – het woordspel van de New York Times – dat ik al een tijdje speel. Spelers mogen zes keer een woord van vijf letters raden. Bij elke gok geeft het spel aan welke letters eventueel op de juiste plaats in het woord staan.

Met de laatste generatie, ChatGPT-4 genaamd, ontdekte ik dat het verrassend slecht presteerde op deze puzzels. Je zou verwachten dat woordspelletjes een fluitje van een cent zijn voor GPT-4. LLM’s worden “getraind” op tekst, wat betekent dat ze worden blootgesteld aan informatie zodat ze beter worden in wat ze doen. ChatGPT-4 werd getraind op ongeveer 500 miljard woorden: heel Wikipedia, alle boeken in het publieke domein, enorme hoeveelheden wetenschappelijke artikelen en tekst van vele websites.

AI-chatbots zouden een grote rol kunnen spelen in ons leven. Begrijpen waarom ChatGPT-4 worstelt met Wordle geeft inzicht in hoe LLM’s woorden representeren en ermee werken – samen met de beperkingen die dit met zich meebrengt.

Eerst testte ik ChatGPT-4 op een Wordle puzzel waarbij ik de juiste locaties van twee letters in een woord wist. Het patroon was “#E#L#”, waarbij “#” de onbekende letters voorstelde. Het antwoord was het woord “melig”.

Vijf van de zes antwoorden van ChatGPT-4 kwamen niet overeen met het patroon. De antwoorden waren: “beryl”, “feral”, “heral”, “merle”, “revel” en “pearl”.

Met andere combinaties vond de chatbot soms geldige oplossingen. Maar over het algemeen was het erg hit and miss. In het geval van een woord met het patroon “##OS#”, vond hij vijf juiste opties. Maar toen het patroon “#R#F#” was, stelde hij twee woorden voor zonder de letter F, en een woord – “Traff” – dat niet in woordenboeken voorkomt.

Weergave van GPT-4

Het in Californië gevestigde bedrijf OpenAI heeft onlangs zijn nieuwste chatbot uitgebracht, bekend als GPT-4.
Shutterstock / Tada Images

Onder de motorkap

De kern van ChatGPT is een diep neuraal netwerk: een complexe wiskundige functie – of regel – die inputs koppelt aan outputs. De inputs en outputs moeten getallen zijn. Aangezien ChatGPT-4 met woorden werkt, moeten deze worden “vertaald” naar getallen zodat het neurale netwerk ermee kan werken.

De vertaling wordt uitgevoerd door een computerprogramma genaamd tokenizer, die een enorme lijst van woorden en letterreeksen bijhoudt, “tokens” genaamd. Deze tokens worden geïdentificeerd door nummers. Een woord als “vriend” heeft een token-ID van 6756, dus een woord als “vriendschap” wordt opgesplitst in de tokens “vriend” en “schip”. Deze worden weergegeven als de identificaties 6756 en 6729.

Wanneer de gebruiker een vraag invoert, worden de woorden vertaald in getallen voordat ChatGPT-4 zelfs begint met de verwerking van het verzoek. Het diepe neurale netwerk heeft geen toegang tot de woorden als tekst, dus het kan niet echt redeneren over de letters.

Gedicht taak

ChatGPT-4 is goed in het werken met de eerste letters van woorden. Ik vroeg hem een gedicht te schrijven waarbij de beginletter van elke regel “Ik hou van robots” betekende. Het antwoord was verrassend goed. Hier zijn de eerste vier regels:

Ik ben een fan van tandwielen en staal

Ik hou van hun bewegingen, zo surrealistisch,

Over circuits, heersen ze snel

Vechten om kennis, ze zijn niet gek,

De trainingsgegevens voor ChatGPT-4 bevatten enorme aantallen tekstboeken, die vaak alfabetische indices bevatten. Dit zou voor GPT-4 voldoende kunnen zijn om associaties te leren tussen woorden en hun eerste letters.

De tokenizer lijkt ook te zijn aangepast om dit soort verzoeken te herkennen, en lijkt een zin als “I Love Robots” op te splitsen in individuele tokens wanneer gebruikers hun verzoek invoeren. ChatGPT-4 kon echter niet omgaan met verzoeken om te werken met de laatste letters van woorden.

ChatGPT-4 is ook slecht in palindromen. Gevraagd om een palindroomzin over een robot te produceren, stelde het “a robot’s sot, orba” voor, wat niet voldoet aan de definitie van een palindroom en berust op obscure woorden.

LLM’s zijn echter relatief goed in het genereren van andere computerprogramma’s. Dat komt omdat hun trainingsgegevens veel websites bevatten die gewijd zijn aan programmeren. Ik heb ChatGPT-4 gevraagd een programma te schrijven om de identiteit van ontbrekende letters in Wordle uit te zoeken.

Het aanvankelijke programma dat ChatGPT-4 produceerde had een fout. Het corrigeerde dit toen ik erop wees. Toen ik het programma uitvoerde, vond het 48 geldige woorden die overeenkwamen met het patroon “#E#L#”, waaronder “tells”, “cells” en “hello”. Toen ik eerder GPT-4 rechtstreeks had gevraagd overeenkomsten voor te stellen voor dit patroon, had het er slechts één gevonden.

Toekomstige oplossingen

Het lijkt misschien verrassend dat een groot taalmodel als ChatGPT-4 moeite heeft met het oplossen van eenvoudige woordpuzzels of het formuleren van palindromen, omdat de trainingsgegevens bijna alle beschikbare woorden bevatten.

Dit komt echter omdat alle tekstinvoer moet worden gecodeerd als getallen en het proces dat dit doet de structuur van letters binnen woorden niet vastlegt. Omdat neurale netwerken uitsluitend met getallen werken, verandert de eis om woorden als getallen te coderen niet.

Er zijn twee manieren waarop toekomstige LLM’s dit kunnen ondervangen. Ten eerste kent ChatGPT-4 de eerste letter van elk woord, dus de trainingsgegevens kunnen worden uitgebreid met toewijzingen van elke letterpositie binnen elk woord in het woordenboek.

De tweede is een meer opwindende en algemene oplossing. Toekomstige LLM’s zouden code kunnen genereren om dit soort problemen op te lossen, zoals ik heb laten zien. Een recent artikel demonstreerde een idee genaamd Toolformer, waarbij een LLM externe hulpmiddelen gebruikt om taken uit te voeren waar ze normaal moeite mee hebben, zoals rekenkundige berekeningen.

We staan aan het begin van deze technologieën, en inzichten als deze in de huidige beperkingen kunnen leiden tot nog indrukwekkender AI-technologieën.

Michael G. Madden ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.