AI kan nu een vergadering bijwonen en code voor je schrijven - hier is waarom je voorzichtig moet zijn

Microsoft lanceerde onlangs een nieuwe versie van al zijn software met de toevoeging van een assistent met kunstmatige intelligentie (AI) die verschillende taken voor je kan doen. Copilot kan mondelinge gesprekken in Teams online meetings samenvatten, argumenten voor of tegen een bepaald punt presenteren op basis van mondelinge discussies en een deel van je e-mails beantwoorden. Hij kan zelfs computercode schrijven.

Deze zich snel ontwikkelende technologie lijkt ons nog dichter bij een toekomst te brengen waarin AI ons leven makkelijker maakt en alle saaie en repetitieve dingen wegneemt die we als mensen moeten doen.

Maar hoewel deze vorderingen allemaal erg indrukwekkend en nuttig zijn, moeten we voorzichtig zijn met het gebruik van dergelijke grote taalmodellen (LLM’s). Ondanks hun intuïtieve aard, vereisen ze nog steeds vaardigheid om ze effectief, betrouwbaar en veilig te gebruiken.

Grote taalmodellen

LLM’s, een soort “deep learning” neurale netwerken, zijn ontworpen om de intentie van de gebruiker te begrijpen door de waarschijnlijkheid van verschillende reacties te analyseren op basis van de gegeven prompt. Dus wanneer iemand een prompt invoert, onderzoekt de LLM de tekst en bepaalt wat het meest waarschijnlijke antwoord is.

ChatGPT, een prominent voorbeeld van een LLM, kan antwoorden geven op prompts over een breed scala aan onderwerpen. Maar ondanks zijn ogenschijnlijk goed geïnformeerde antwoorden, beschikt ChatGPT niet over echte kennis. De antwoorden zijn simpelweg de meest waarschijnlijke uitkomsten op basis van de gegeven prompt.

Als mensen ChatGPT, Copilot en andere LLM’s voorzien van gedetailleerde beschrijvingen van de taken die ze willen uitvoeren, kunnen deze modellen uitblinken in het geven van antwoorden van hoge kwaliteit. Dit kan het genereren van tekst, afbeeldingen of computercode omvatten.

Maar als mensen verleggen we vaak de grenzen van wat technologie kan en waarvoor het oorspronkelijk ontworpen is. Als gevolg daarvan gaan we deze systemen gebruiken om het werk te doen dat we eigenlijk zelf hadden moeten doen.

Microsoft Copilot is beschikbaar in Windows 11 en Microsoft 365.
rafapress/Shutterstock

Waarom te veel vertrouwen op AI een probleem kan zijn

Ondanks hun ogenschijnlijk intelligente antwoorden, kunnen we er niet blindelings op vertrouwen dat LLM’s nauwkeurig of betrouwbaar zijn. We moeten hun output zorgvuldig evalueren en verifiëren, om er zeker van te zijn dat onze aanvankelijke aanwijzingen worden weerspiegeld in de gegeven antwoorden.

Om de resultaten van LLM’s effectief te verifiëren en valideren, moeten we het onderwerp goed begrijpen. Zonder expertise kunnen we niet de nodige kwaliteitsgarantie bieden.

Dit wordt met name kritiek in situaties waarin we LLM’s gebruiken om gaten in onze eigen kennis te dichten. Hier kan ons gebrek aan kennis leiden tot een situatie waarin we eenvoudigweg niet in staat zijn om te bepalen of de uitvoer correct is of niet. Deze situatie kan zich voordoen bij het genereren van tekst en codering.

Het gebruik van AI om vergaderingen bij te wonen en de discussie samen te vatten brengt duidelijke risico’s met zich mee op het gebied van betrouwbaarheid. Hoewel het verslag van de vergadering gebaseerd is op een transcript, worden de aantekeningen van de vergadering nog steeds op dezelfde manier gegenereerd als andere tekst van LLM’s. Ze zijn nog steeds gebaseerd op taalpatronen en waarschijnlijkheden van wat er gezegd is. Ze zijn nog steeds gebaseerd op taalpatronen en waarschijnlijkheden van wat er gezegd is, dus ze moeten geverifieerd worden voordat er naar gehandeld kan worden.

Ze hebben ook last van interpretatieproblemen door homofonen, woorden die hetzelfde worden uitgesproken maar verschillende betekenissen hebben. Mensen zijn goed in het begrijpen wat er bedoeld wordt in zulke omstandigheden door de context van het gesprek.

Maar AI is niet goed in het afleiden van context en begrijpt ook geen nuance. Dus verwachten dat ze argumenten formuleert op basis van een mogelijk foutief transcript levert nog meer problemen op.

Verificatie is nog moeilijker als we AI gebruiken om computercode te genereren. Het testen van computercode met testgegevens is de enige betrouwbare methode om de functionaliteit ervan te valideren. Hoewel dit aantoont dat de code werkt zoals bedoeld, garandeert het niet dat het gedrag overeenkomt met de verwachtingen in de echte wereld.

Stel dat we generatieve AI gebruiken om code te maken voor een tool voor sentimentanalyse. Het doel is om productrecensies te analyseren en sentimenten te categoriseren als positief, neutraal of negatief. We kunnen de functionaliteit van het systeem testen en valideren dat de code correct functioneert – dat het programmeertechnisch in orde is.

Stel je echter voor dat we dergelijke software in de echte wereld gebruiken en dat het sarcastische productrecensies als positief begint te classificeren. Het sentimentanalysesysteem mist de contextuele kennis die nodig is om te begrijpen dat sarcasme niet wordt gebruikt als positieve feedback, integendeel.

Om te controleren of de uitvoer van een code overeenkomt met de gewenste uitkomsten in genuanceerde situaties zoals deze, is expertise nodig.

Lees meer:
ChatGPT wordt 1: Het succes van de AI-chatbot zegt net zoveel over de mens als over de technologie

Niet-programmeurs zullen geen kennis hebben van software engineering principes die worden gebruikt om ervoor te zorgen dat code correct is, zoals planning, methodologie, testen en documentatie. Programmeren is een complexe discipline en software engineering is ontstaan als een vakgebied om de kwaliteit van software te beheren.

Er is een aanzienlijk risico, zoals mijn eigen onderzoek heeft aangetoond, dat niet-experts kritieke stappen in het softwareontwerpproces over het hoofd zien of overslaan, wat leidt tot code van onbekende kwaliteit.

Validatie en verificatie

LLM’s zoals ChatGPT en Copilot zijn krachtige hulpmiddelen waar we allemaal van kunnen profiteren. Maar we moeten oppassen dat we niet blindelings vertrouwen op de resultaten die we krijgen.

We staan aan het begin van een grote revolutie op basis van deze technologie. AI heeft oneindig veel mogelijkheden, maar het moet gevormd, gecontroleerd en geverifieerd worden. En op dit moment zijn mensen de enigen die dit kunnen.

Simon Thorne werkt niet voor, heeft geen adviesfuncties, bezit geen aandelen in en ontvangt geen financiering van bedrijven of organisaties die baat zouden hebben bij dit artikel en heeft geen relevante banden bekendgemaakt buiten zijn academische aanstelling.