Scarlett Johansson's klacht bij OpenAI is een nieuwe benchmark in de ontwikkeling van machine intelligentie

Denis Makarenko / Shutterstock

Meer dan 2000 jaar geleden bedacht de oude Griekse filosoof Aristoteles een manier om argumenten op te bouwen. Hij noemde dit “retorica” en beschreef hoe logica in de tekst van een betoog of toespraak, de behoeften en het begrip van het publiek en de autoriteit van de spreker gebruikt konden worden als strategieën om anderen te overtuigen.

In plaats van alleen te vertrouwen op de logica van het argument of het vertrouwen in de spreker, hebben politici en acteurs al lang erkend dat er niets zo effectief is als het gebruik van emotie om de harten en dus de geesten van een publiek te winnen.

Met de lancering van GTP-4o vorige week hebben we misschien net een machine gezien die bij uitstek geschikt is voor deze taak. Terwijl de meesten dit zien als een fantastische doorbraak waar heel veel mensen baat bij kunnen hebben, zijn er ook mensen die het met meer voorzichtigheid bekijken.

Ondanks het feit dat ze eerder OpenAI’s verzoek om een voorbeeld van haar stem afwees, zei actrice Scarlett Johansson dat ze “geschokt” en “boos” was toen ze de nieuwe GTP-4o hoorde spreken.

Een van de vijf stemmen die GTP-4o gebruikte, Sky genaamd, klonk griezelig als de actrice in haar rol als de AI Samantha in de film Her uit 2013 – over een man die verliefd wordt op een virtuele assistent. De discussie werd nog aangewakkerd door OpenAI oprichter en CEO Sam Altman, die de vergelijking tussen Sky en Samantha/Johansson leek op te rakelen door “haar” te tweeten op de dag van de lancering van GPT-4o.

OpenAI postte later op X dat het “bezig was met het pauzeren van het gebruik van Sky” en creëerde een webpagina op 19 mei, waarin werd uitgelegd dat er een andere actrice was gebruikt. Het bedrijf lichtte ook toe hoe de stemmen waren gekozen.

Sam Altman is de CEO van OpenAI.
jamesonwu1972 / Shutterstock

Het feit dat de film Her vrijwel meteen werd genoemd toen GPT-4o werd gelanceerd, heeft geholpen om de technologie meer bekendheid te geven bij het grote publiek en heeft er misschien voor gezorgd dat de mogelijkheden ervan minder eng leken.

Gelukkig maar, want geruchten over een samenwerking met Apple hebben de angst voor privacy aangewakkerd, nu iOS18 volgende maand uitkomt. Op dezelfde manier is OpenAI een samenwerking aangegaan met Microsoft voor zijn nieuwe generatie van AI aangedreven Windows-systeem genaamd Copilot + PC.

In tegenstelling tot andere grote taalmodellen (LLM’s) is GTP-4o (of omni) vanaf de grond opgebouwd om niet alleen tekst, maar ook beeld en geluid op een uniforme manier te begrijpen. Dit is echte multimodaliteit die veel verder gaat dan de mogelijkheden van “traditionele” LLM’s.

Het kan nuances in spraak herkennen zoals emotie, ademhaling, omgevingsgeluid, vogelgezang en het kan dit integreren met wat het ziet.

Het is een uniform multimodaal model (wat betekent dat het overweg kan met foto’s en tekst), is snel – het reageert net zo snel als normale menselijke spraak (gemiddeld 320 milliseconden) – en kan worden onderbroken. Het resultaat is angstaanjagend natuurlijk en verandert de toon en emotionele intensiteit op de juiste manier. Het kan zelfs zingen. Sommigen hebben zelfs geklaagd over hoe “flirterig” GTP-4o is. Geen wonder dat sommige acteurs zich zorgen maken.

Het is echt een nieuwe manier om met AI om te gaan. Het vertegenwoordigt een subtiele verschuiving in onze relatie met technologie en biedt een fundamenteel nieuw type “natuurlijke” interface die soms EAI of empathische AI wordt genoemd.

De snelheid van deze opmars heeft veel overheidsorganisaties en politiekorpsen ongerust gemaakt. Het is nog steeds onduidelijk hoe het beste met deze technologie kan worden omgegaan als het door schurkenstaten of criminelen als wapen wordt ingezet. Met audio deepfakes in opkomst wordt het steeds moeilijker om te detecteren wat echt is en wat niet. Zelfs vrienden van Johansson dachten dat zij het was.

In een jaar waarin verkiezingen worden gehouden waarbij meer dan 4 miljard potentiële kiezers betrokken zijn en waarin fraude op basis van gerichte deepfake audio toeneemt, moeten de gevaren van gewapende AI niet worden onderschat.

Zoals Aristoteles ontdekte, gaat het bij overtuigingskracht vaak niet om wat je zegt, maar om de manier waarop je het zegt. We hebben allemaal last van onbewuste vooroordelen, een interessant rapport uit het Verenigd Koninkrijk over accentvooroordelen benadrukt dit. Sommige accenten zijn geloofwaardiger, gezaghebbender of zelfs betrouwbaarder dan andere. Precies om deze reden gebruiken mensen die in callcenters werken nu AI om hun stem te “verwesteren”. In het geval van GTP-4o is hoe het dingen zegt misschien wel net zo belangrijk als wat het zegt.

Als de AI de behoeften van het publiek begrijpt en in staat is logisch te redeneren, dan is het laatste wat misschien nodig is de manier waarop de boodschap wordt overgebracht – zoals Aristoteles 2000 jaar geleden al aangaf. Misschien hebben we dan een AI gecreëerd die de potentie heeft om een bovenmenselijke meester te worden in retoriek en met overtuigingskracht die het vermogen van het publiek om te weerstaan te boven gaat.

Niets bekend te maken