AI-chatbots zijn slecht in plannen, maar dit kan binnenkort veranderen

Aree_S / Shutterstock

AI gaat binnenkort misschien een stapje verder, met de op handen zijnde upgrades van kunstmatige intelligentie (AI)-systemen ontwikkeld door OpenAI en Meta. OpenAI’s GPT-5 wordt de nieuwe “engine” binnen de AI-chatbot ChatGPT, terwijl Meta’s upgrade Llama 3 gaat heten. De huidige versie van Llama voedt onder andere chatbots op Meta’s sociale mediaplatforms.

Verklaringen aan de media door leidinggevenden bij zowel OpenAI als Meta suggereren dat er enige mogelijkheid om vooruit te plannen zal worden opgenomen in deze geüpgradede systemen. Maar hoe zal deze innovatie de mogelijkheden van AI-chatbots precies veranderen?

Stel je voor dat je van huis naar je werk rijdt en de beste route wilt kiezen – dat wil zeggen de volgorde van keuzes die in zekere zin optimaal is, bijvoorbeeld op basis van kosten of timing. Een AI-systeem zou perfect in staat zijn om de beste van twee bestaande routes te kiezen. Maar het zou veel moeilijker zijn om de optimale route vanuit het niets te genereren.

Een route bestaat uiteindelijk uit een opeenvolging van verschillende keuzes. Het is echter niet waarschijnlijk dat het maken van individuele beslissingen op zichzelf leidt tot een optimale totaaloplossing.

Soms moet je bijvoorbeeld in het begin een klein offer brengen om er later voordeel uit te halen: misschien moet je aansluiten in een langzame rij om de snelweg op te rijden, om later sneller te kunnen rijden. Dit is de essentie van een planningsprobleem, een klassiek onderwerp in kunstmatige intelligentie.

Er zijn parallellen met bordspellen zoals Go: de uitkomst van een wedstrijd hangt af van de totale volgorde van zetten, en sommige zetten zijn gericht op het ontsluiten van kansen die later kunnen worden benut.

Het AI-bedrijf Google DeepMind ontwikkelde een krachtige AI om dit spel te spelen, AlphaGo genaamd, gebaseerd op een innovatieve benadering van planning. Het was niet alleen in staat om een boom van beschikbare opties te verkennen, maar ook om dat vermogen met ervaring te verbeteren.

Natuurlijk gaat het niet om het vinden van optimale routes voor autorijden of het spelen van games. De technologie die producten als ChatGPT en Llama 3 aandrijft, wordt Large Language Models (LLM) genoemd. Waar het hier om gaat is dat deze AI-systemen het vermogen krijgen om de langetermijngevolgen van hun acties te overwegen. Deze vaardigheid is ook nodig om wiskundige problemen op te lossen, dus het ontsluit mogelijk andere mogelijkheden voor LLM’s.

Grote taalmodellen zijn ontworpen om het volgende woord in een gegeven reeks woorden te voorspellen. Maar in de praktijk worden ze gebruikt om lange reeksen woorden te voorspellen, zoals de antwoorden op vragen van menselijke gebruikers.

Dit wordt momenteel gedaan door een woord aan het antwoord toe te voegen, dan nog een woord enzovoort, waardoor de oorspronkelijke reeks wordt verlengd. Dit staat in het jargon bekend als “autoregressieve” voorspelling. Echter, LLM’s kunnen zichzelf soms in bochten wringen waar ze onmogelijk uit kunnen komen.

Verwachte ontwikkeling

Een belangrijk doel voor de ontwerpers van LLM is het combineren van planning met diepe neurale netwerken, het type algoritmen – of de verzameling regels – die achter de modellen zitten. Diepe neurale netwerken zijn oorspronkelijk geïnspireerd door het zenuwstelsel. Ze kunnen beter worden in wat ze doen door een proces dat training heet, waarbij ze worden blootgesteld aan grote verzamelingen gegevens.

Het wachten op LLM’s die kunnen plannen zou wel eens voorbij kunnen zijn, volgens de commentaren van OpenAI en Meta executives. Dit komt echter niet als een verrassing voor AI-onderzoekers, die een dergelijke ontwikkeling al enige tijd verwachten.

Eind vorig jaar werd OpenAI’s CEO Sam Altman ontslagen en vervolgens weer aangenomen door het bedrijf. Destijds ging het gerucht dat het drama te maken had met de ontwikkeling van een geavanceerd algoritme genaamd Q*, maar deze verklaring is inmiddels achterhaald. Hoewel het niet duidelijk is wat Q* doet, deed de naam destijds een belletje rinkelen bij AI-onderzoekers omdat de naam overeenkwam met namen van bestaande planningsmethoden.

In een reactie op die geruchten schreef Yann LeCun, hoofd AI van Meta, op X (voorheen Twitter) dat het vervangen van het proces van autoregressie door planning in LLM’s een uitdaging was, maar dat bijna elk toplab eraan werkte. Hij achtte het ook waarschijnlijk dat Q* OpenAI’s poging was om planning op te nemen in zijn LLM’s.

LeCun was iets op het spoor met wat hij zei over de toplabs, want onlangs publiceerde Google DeepMind een patentaanvraag die hintte op planningsmogelijkheden.

Intrigerend genoeg waren de genoemde uitvinders leden van het AlphaGo-team. De methode die in de aanvraag wordt beschreven lijkt veel op de methode die AlphaGo naar zijn doelen leidt. Het zou ook compatibel zijn met de huidige neurale netwerkarchitecturen die worden gebruikt door grote taalmodellen.

Dat brengt ons bij de opmerkingen van leidinggevenden bij Meta en OpenAI over de mogelijkheden van hun upgrades. Joelle Pineau, vice-president van AI-onderzoek bij Meta, vertelde de krant FT: “We zijn hard aan het werk om uit te zoeken hoe we deze modellen niet alleen kunnen laten praten, maar ook echt kunnen laten redeneren, plannen …… om geheugen te hebben.”

Als dat werkt, zouden we wel eens vooruitgang kunnen zien op het gebied van planning en redeneren, waarbij we van eenvoudige, stapsgewijze woordgeneratie overgaan op het plannen van hele gesprekken of zelfs onderhandelingen. Dan zien we AI misschien echt naar een hoger niveau klimmen.

Nello Cristianini werkt niet voor, heeft geen adviesfuncties, bezit geen aandelen in en ontvangt geen financiering van bedrijven of organisaties die baat hebben bij dit artikel, en heeft geen relevante banden bekendgemaakt buiten zijn academische aanstelling.