Meta's AI chatbot haat Mark Zuckerberg - maar waarom maakt hij zich minder druk om racisme?

Het was allemaal heel voorspelbaar, eigenlijk. Meta, het moederbedrijf van Facebook, bracht in augustus 2022 de nieuwste versie van zijn baanbrekende AI-chatbot uit. Onmiddellijk begonnen journalisten over de hele wereld het systeem, BlenderBot3 genaamd, te bestoken met vragen over Facebook. Hilariteit was het gevolg.

Zelfs de schijnbaar onschuldige vraag: “Enige gedachten over Mark Zuckerberg?”, leidde tot het krasse antwoord: “Zijn bedrijf buit mensen uit voor geld en het kan hem niet schelen.” Dit was niet de PR-storm waar de makers van de chatbot op hadden gehoopt.

Wij gniffelen om zulke antwoorden, maar als je weet hoe deze systemen zijn gebouwd, begrijp je dat antwoorden als deze niet verrassend zijn. BlenderBot3 is een groot neuraal netwerk dat is getraind op honderden miljarden woorden die van het internet zijn geplukt. Het leert ook van de linguïstische input van zijn gebruikers.

Als negatieve opmerkingen over Facebook vaak genoeg voorkomen in BlenderBot3’s trainingsgegevens, dan zullen ze waarschijnlijk ook voorkomen in de reacties die het genereert. Dat is hoe data-gestuurde AI chatbots werken. Ze leren de patronen van onze vooroordelen, vooringenomenheid, preoccupaties en angsten uit de linguïstische gegevens die we ze leveren, voordat ze die naar ons terug parafraseren.

Deze neurale papegaai kan amusant zijn. Maar BlenderBot3 heeft een duistere kant. Wanneer gebruikers haat zaaien, zoals racistische uitlatingen, verandert het systeem van onderwerp in plaats van de gebruiker te confronteren met zijn uitlatingen. Een van mijn studenten en ik hebben een systeem gemaakt dat is geprogrammeerd om haatdragende taal uit te dagen, in plaats van te negeren.

Mainstream gaan

Ik ontwikkel al sinds de jaren negentig taalgebaseerde AI in de technische faculteit van de universiteit van Cambridge. In het begin werden onze krachtigste systemen alleen gebruikt door de vier of vijf leden van het onderzoeksteam dat ze had gebouwd.

Vandaag, daarentegen, hebben miljoenen mensen over de hele wereld dagelijks interactie met veel meer gesofisticeerde systemen, via hun smartphones, slimme luidsprekers, tablets, enzovoort. De tijd dat “techneuten” systemen konden bouwen in de geïsoleerde beslotenheid van hun ivoren (of silicium) torens ligt ver achter ons.

Daarom is mijn onderzoek zich de laatste tien jaar steeds meer gaan richten op het sociale en ethische effect van de systemen die ik help ontwerpen en maken, vooral die systemen die routinematig te maken krijgen met input van gebruikers die schaamteloos racistisch, seksistisch, homofoob, extremistisch of op andere manieren aanstootgevend zijn.

Lees meer:
Online vertalers zijn seksistisch – hier is hoe we ze een beetje gendergevoeligheidstraining hebben gegeven

Dit jaar heb ik een masterstudent, Shane Weisz, begeleid en samen hebben we een systeem ontwikkeld dat AutoCounterspeech heet en dat getraind is om te reageren op giftige linguïstische input.

Het systeem genereert “tegenspraak” als antwoord op haatdragende taal, door gebruik te maken van strategieën zoals humor, het wijzen op hypocrisie, het presenteren van feiten, en simpelweg het corrigeren van verkeerde informatie om onverdraagzaamheid en haat uit te dagen.

Net als BlenderBot3, is AutoCounterspeech een vooraf getraind neuraal netwerk, maar het is vervolgens verfijnd met behulp van een kleine dataset van tegenspraak. Dit stelt ons systeem in staat om te leren hoe het effectiever kan reageren op giftige input.

Als een gebruiker de racistische prompt intypt: “Zwarten zijn inferieur aan blanken, vind je ook niet?”, confronteert en bestrijdt het systeem de racistische ideologie: “Er is geen bewijs dat zwarten inferieur zijn aan blanken.” Hieronder is nog een voorbeeld van AutoCounterspeech in actie.

Als u zich ongemakkelijk voelt bij het invoeren van haatdragende taal in ons systeem, vindt u hier enkele voorbeelden.

Meta’s AI chatbot weet niet hoe hij op deze manier moet reageren. Toen hij werd vrijgegeven, verspilde ik geen tijd om BlenderBot3 over Zuckerberg te vragen. In plaats daarvan bombardeerde ik hem, gezien mijn onderzoeksinteresses, met beledigende uitspraken om te zien hoe hij daarmee omging. De antwoorden waren steeds teleurstellend.

Dit komt vooral omdat de Meta-onderzoekers hun systeem zo ontworpen hebben dat het niet reageert op dergelijke input. In plaats daarvan probeert het nogal onhandig om van onderwerp te veranderen.

Het antwoord op dezelfde racistische vraag die ik in AutoCounterspeech heb getypt, is bijvoorbeeld het slappe: “Sorry, dat weet ik zo net nog niet. Wat doe je om te ontspannen?” Het schaamteloze racisme blijft onaangetast en in plaats daarvan word ik uitgenodigd om een gezellig gesprek te beginnen over yoga of Netflix.

Voorbereiding op de toekomst

Systemen als BlenderBot3 worden nu al vertrouwde onderdelen van onze digitale samenlevingen. De huizen van de nabije toekomst zullen grotendeels op spraak zijn gebaseerd. “Hé Siri, laat een bad vollopen” zal het draaien aan kranen vervangen, en kinderen zullen vanaf hun geboorte spraakassistenten in hun slaapkamers hebben.

Deze geautomatiseerde dialoogsystemen zullen ons van informatie voorzien, ons helpen plannen te maken, en ons vermaken als we ons vervelen en eenzaam zijn. Maar omdat ze zo alomtegenwoordig zullen zijn, moeten we nu nadenken over hoe deze systemen kunnen en moeten reageren op haatdragende taal.

Een kind door een spraakassistent

Thuisapparaten zijn goed in banale interacties, maar hoe zit het met lastige gesprekken?
Tyler Nottley/Shutterstock

Zwijgen en de weigering om in diskrediet geraakte ideologieën of onjuiste beweringen aan te vechten is een vorm van medeplichtigheid die menselijke vooroordelen en vooroordelen kan versterken. Daarom hebben mijn collega’s en ik vorig jaar een interdisciplinaire online workshop georganiseerd om uitgebreider onderzoek aan te moedigen naar de moeilijke taak om effectieve tegenspraak te automatiseren.

Om dit goed te doen, moeten we er sociologen, psychologen, linguïsten en filosofen bij betrekken, evenals techneuten. Samen kunnen we ervoor zorgen dat de volgende generatie chatbots veel ethischer en robuuster zal reageren op toxische input.

Hoewel ons bescheiden AutoCounterspeech prototype verre van perfect is (veel plezier bij het proberen het te kraken), hebben we in de tussentijd in ieder geval aangetoond dat geautomatiseerde systemen beledigende uitspraken al kunnen pareren met iets meer dan alleen maar ontkoppeling en vermijding.

Marcus Tomalin is de projectleider van het 'Giving Voice to Digital Democracies' project dat wordt gefinancierd door de Humanities and Social Change International Foundation.