Het gebruik van AI om het internet te controleren op terreurinhoud is onontkoombaar - maar ook vol valkuilen

shutterstock metamorworks/Shutterstock

Elke minuut overspoelen miljoenen berichten, foto’s en video’s op sociale media het internet. Gemiddeld delen Facebook-gebruikers 694.000 verhalen, X-gebruikers (voorheen Twitter) posten 360.000 berichten, Snapchat-gebruikers versturen 2,7 miljoen snaps en YouTube-gebruikers uploaden meer dan 500 uur aan video.

Deze enorme oceaan van online materiaal moet voortdurend worden gecontroleerd op schadelijke of illegale inhoud, zoals het promoten van terrorisme en geweld.

De enorme hoeveelheid inhoud betekent dat het voor mensen onmogelijk is om alles handmatig te inspecteren en te controleren, daarom zijn geautomatiseerde hulpmiddelen, waaronder kunstmatige intelligentie (AI), essentieel. Maar zulke tools hebben ook hun beperkingen.

De gezamenlijke inspanningen van de afgelopen jaren om tools te ontwikkelen voor de identificatie en verwijdering van online terroristische inhoud is deels gevoed door de opkomst van nieuwe wet- en regelgeving. Een voorbeeld hiervan is de EU-verordening inzake terroristische online-inhoud, die hostingproviders verplicht om terroristische inhoud van hun platform te verwijderen binnen een uur na ontvangst van een verwijderingsbevel van een bevoegde nationale instantie.

Op gedrag en inhoud gebaseerde hulpmiddelen

In grote lijnen zijn er twee soorten tools die worden gebruikt om terroristische inhoud te verwijderen. De eerste kijkt naar bepaald gedrag van accounts en berichten. Dit omvat hoe oud het account is, het gebruik van trending of niet-gerelateerde hashtags en abnormaal postvolume.

In veel opzichten is dit vergelijkbaar met spamdetectie, in die zin dat het niet let op de inhoud, en waardevol is voor het detecteren van de snelle verspreiding van grote hoeveelheden inhoud, die vaak bot-gedreven zijn.

Het tweede type tool is gebaseerd op inhoud. Het richt zich op linguïstische kenmerken, woordgebruik, afbeeldingen en webadressen. Geautomatiseerde contentgebaseerde tools hebben een van de volgende twee benaderingen.

1. Overeenstemming

De eerste benadering is gebaseerd op het vergelijken van nieuwe afbeeldingen of video’s met een bestaande database van afbeeldingen en video’s die eerder zijn geïdentificeerd als terroristisch van aard. Een uitdaging hierbij is dat het bekend is dat terreurgroepen dergelijke methoden proberen te omzeilen door subtiele varianten van dezelfde inhoud te produceren.

Na de Christchurch-terreuraanslag in Nieuw-Zeeland in 2019 waren er bijvoorbeeld honderden visueel verschillende versies van de livestreamvideo van de gruweldaad in omloop.

Om dit tegen te gaan, gebruiken op matching gebaseerde tools over het algemeen perceptuele hashing in plaats van cryptografische hashing. Hashes zijn een beetje zoals digitale vingerafdrukken, en cryptografische hashing werkt als een veilige, unieke identiteitstag. Zelfs het veranderen van een enkele pixel in een afbeelding verandert de vingerafdruk drastisch, waardoor valse overeenkomsten worden voorkomen.

Perceptuele hashing, aan de andere kant, richt zich op gelijkenis. Het houdt geen rekening met kleine veranderingen zoals pixelkleurcorrecties, maar identificeert afbeeldingen met dezelfde kerninhoud. Hierdoor is perceptuele hashing beter bestand tegen kleine veranderingen aan een stukje inhoud. Maar het betekent ook dat de hashes niet volledig willekeurig zijn en dus mogelijk gebruikt kunnen worden om te proberen de originele afbeelding na te maken.

Elke minuut worden miljoenen berichten, afbeeldingen en video’s geüpload naar sociale mediaplatforms.
Viktollio/Shutterstock

2. Indeling

De tweede benadering is gebaseerd op het classificeren van inhoud. Het gebruikt machine learning en andere vormen van AI, zoals natuurlijke taalverwerking. Om dit te bereiken heeft de AI veel voorbeelden nodig, zoals teksten die door menselijke inhoudsbeoordelaars al dan niet als terroristische inhoud zijn bestempeld. Door deze voorbeelden te analyseren, leert de AI welke kenmerken verschillende soorten inhoud onderscheiden, waardoor het zelf nieuwe inhoud kan categoriseren.

Eenmaal getraind kunnen de algoritmes voorspellen of een nieuw item tot een van de gespecificeerde categorieën behoort. Deze items kunnen dan worden verwijderd of gemarkeerd voor menselijke beoordeling.

Deze aanpak kent echter ook uitdagingen. Het verzamelen en voorbereiden van een grote dataset met terroristische inhoud om de algoritmes te trainen is tijdrovend en kost veel middelen.

De trainingsgegevens kunnen ook snel gedateerd raken, omdat terroristen nieuwe termen gebruiken en nieuwe wereldgebeurtenissen en actuele zaken bespreken. Algoritmes hebben ook moeite met het begrijpen van context, inclusief subtiliteit en ironie. Ze missen ook culturele gevoeligheid, inclusief variaties in dialect en taalgebruik tussen verschillende groepen.

Deze beperkingen kunnen belangrijke offline effecten hebben. Er zijn gedocumenteerde mislukkingen geweest bij het verwijderen van haatzaaiende uitingen in landen als Ethiopië en Roemenië, terwijl activisten voor de vrijheid van meningsuiting in landen als Egypte, Syrië en Tunesië hebben gemeld dat hun inhoud is verwijderd.

We hebben nog steeds menselijke moderatoren nodig

Ondanks de vooruitgang in AI blijft menselijke inbreng dus essentieel. Menselijke inbreng is belangrijk voor het onderhouden van databases en datasets, het beoordelen van inhoud die is gemarkeerd voor beoordeling en het uitvoeren van beroepsprocedures voor als beslissingen worden aangevochten.

Maar dit is veeleisend en slopend werk en er zijn vernietigende rapporten verschenen over de arbeidsomstandigheden van moderatoren, waarbij veel techbedrijven zoals Meta dit werk uitbesteden aan externe leveranciers.

Om dit aan te pakken, bevelen we de ontwikkeling aan van een reeks minimumnormen voor degenen die inhoudsmoderatoren in dienst hebben, waaronder voorzieningen voor geestelijke gezondheid. Er zijn ook mogelijkheden om AI-tools te ontwikkelen om het welzijn van moderatoren te waarborgen. Dit zou bijvoorbeeld kunnen door delen van afbeeldingen te vervagen, zodat moderatoren een beslissing kunnen nemen zonder direct naar de storende inhoud te kijken.

Maar tegelijkertijd hebben weinig of geen platforms de middelen die nodig zijn om geautomatiseerde content moderatie tools te ontwikkelen en voldoende menselijke reviewers met de vereiste expertise in dienst te nemen.

Veel platforms hebben zich gewend tot kant-en-klare producten. Er wordt geschat dat de markt voor oplossingen voor contentmoderatie tegen 2031 32 miljard dollar waard zal zijn.

Maar hier is voorzichtigheid geboden. Derden zijn momenteel niet onderworpen aan hetzelfde niveau van toezicht als de technologieplatforms zelf. Ze kunnen onevenredig veel vertrouwen op geautomatiseerde tools, met onvoldoende menselijke inbreng en een gebrek aan transparantie over de datasets die worden gebruikt om hun algoritmen te trainen.

Samenwerkingsinitiatieven tussen overheden en de private sector zijn dus essentieel. Het door de EU gefinancierde project Tech Against Terrorism Europe heeft bijvoorbeeld waardevolle hulpmiddelen ontwikkeld voor technologiebedrijven. Er zijn ook voorbeelden van geautomatiseerde content moderatie tools die openlijk beschikbaar worden gemaakt, zoals Meta’s Hasher-Matcher-Actioner, die bedrijven kunnen gebruiken om hun eigen database van gehashte terroristische content op te bouwen.

Internationale organisaties, overheden en technologieplatforms moeten prioriteit geven aan de ontwikkeling van dergelijke samenwerkingsmiddelen. Zonder dit zal het effectief aanpakken van online terreurinhoud moeilijk blijven.

Stuart Macdonald ontvangt financiering van het EU-fonds voor interne veiligheid voor het project Tech Against Terrorism Europe (ISF-2021-AG-TCO-101080101).

Ashley A. Mattheis ontvangt financiering van het EU-fonds voor interne veiligheid voor het project Tech Against Terrorism Europe (ISF-2021-AG-TCO-101080101).

David Wells ontvangt financiering van de Raad van Europa om een analyse uit te voeren van opkomende patronen van misbruik van technologie door terroristische actoren (lopend)