Waar moet ik kritisch en alert op zijn?

Je hebt in de vorige paragraaf geleerd dat we op deze website verschillende typen van automatisering onderscheiden. Omdat deze allemaal op een andere manier werken, moet je op verschillende dingen alert zijn. Bekijk de voorbeeldverhalen om meer te ontdekken.

Verantwoordelijk AI ontwikkelen

Ook moeten we goed nadenken over de verantwoordelijkheid rondom AI-toepassingen. Wie bepaalt of een AI-systeem goed werkt? Het is goed om daarbij een aantal uitgangspunten te hanteren.

1. Wie verzamelt / heeft de data?

Om te beginnen zijn er voor de ontwikkeling van AI voorbeelden nodig, data genoemd, waar de computer van kan leren. Data kunnen van alles zijn, van afbeeldingen tot tweets en van gestructureerde databases met persoonsgegevens tot een download van de volledige Wikipedia. Het hangt van je toepassing af wat voor data je nodig hebt. Data kunnen voorzien zijn van labels, bijvoorbeeld of tweets wel of geen fake news bevatten en of personen in een database wel of niet hebben gestemd bij de laatste verkiezingen. Dat noemen we gelabelde data. Wanneer labels afwezig zijn, spreken we van ongelabelde data.

Voor grote hoeveelheden data gebruiken we de populaire term big data. Vanaf welke hoeveelheid gewone data big data worden, ligt niet vast. Maar big data zijn in ieder geval veel te groot om handmatig te verwerken. Een computer kan dat wel: die heeft veel tijd en kan vooral razendsnel rekenen. Maar als journalist moet je erop bedacht zijn dat data en AI bias kunnen bevatten.

‘AI-systemen leren van subjectieve bronnen: onszelf, onze voorkeuren, ons interactiegedrag. Het leren van subjectieve bronnen zorgt vanzelfsprekend voor subjectieve uitkomsten’, schreven Maarten de Rijke, AI professor aan de Universiteit van Amsterdam en zijn (destijds) promovendus David Graus al in 2016 in een opiniestuk in NRC, getiteld Wij zijn racisten, daarom Google ook.

Tip: Met het Impact Assessment voor Mensenrechten bij de inzet van Algoritmes (IAMA) kan een afgewogen discussie gevoerd worden tussen de relevante partijen bij de afweging om wel of niet een algoritmische toepassing te gaan ontwikkelen

2. Wie bepaalt de labels, en hoe?

Ook de labels die je aan je data hangt, zijn bepalend voor de werking van je AI-systeem.

Laten we starten met een gedachte-experiment. Je hoeft maar twee dingen te doen. Beantwoord allereerst in gedachten de volgende vraag:

Waar werd je de afgelopen week blij van?

Denk er even goed over na. Als je iets in gedachten hebt, kun je door naar de volgende vraag:

Hoe zou je jouw blijheid classificeren? Je moet één van de volgende categorieën kiezen:

Prestatie
Affectie
Binding
Genieten van het moment
Beweging / sport
Vrije tijd
Natuur

Lukte dat? Of was het lastig om één hokje te kiezen? Misschien miste je een categorie. Laten we het een proberen met een blij moment van een ander:

“Ik ging op een succesvolle date.”

Je mag weer slechts een van de zeven bovenstaande redenen toekennen. Je voelt de discussie al aankomen. “Ja, maar wat nou als de persoon ging wandelen op de hei met die date? En het hun eerste date in jaaaaaren was?” Met een beetje goede wil kruis je voor deze succesvolle date vrijwel alle opties aan. Maar ja, het AI-model dwingt je om te interpreteren en een enkele categorie te kiezen.

Dit is precies waar single-label classificatie over gaat: kun je van tevoren de juiste labels bedenken voor voorbeelden die je al kent, én zorgen dat die ook nog eens goed werken op alle echte gebeurtenissen in de toekomst? En hoe bepaal je welke voorbeelden je gebruikt om te labelen, wanneer dat er genoeg zijn en hoe divers ze moeten zijn?

Happy Moment dataset

Het Blije Moment-experiment hebben we geleend van de Happy Database: a Corpus of 100,000 Crowdsourced Happy Moments.

Binnen machine learning valt het Happy Moments project onder de zogeheten single-label classificatie (SLC) vraagstukken. Dat betekent dat dingen slechts in een enkel (‘single’) hokje mogen. SLC klinkt redelijk duidelijk en eenvoudig, maar is het in de praktijk niet. Aan goede labeling gaan de volgende stappen vooraf:

Je moet gevarieerde, relevante, realistische voorbeelden selecteren;
Je moet benoemen welke kenmerken doorslaggevend zijn bij het bepalen van het label;
Je moet overeenstemming bereiken met anderen over de interpretatie van de kenmerken en de labels.

Alleen zo kun je met andere labelers – annotatoren genaamd – onderling bepalen wanneer iets wel of niet tot een bepaalde klasse (‘class’) behoort en welk label ieder voorbeelditem krijgt.

Het labelen van data is essentieel voor de supervised learning vorm (de veelgebruikte AI-aanpak om machines iets te leren (zie ook het voorbeeld over Engels eerder in deze introductie). De term ‘supervised’ zegt het al: als supervisor kies je de juiste voorbeelden om een ander te tonen waar je naar op zoek bent; hoe ‘iets’ moet, werkt of hoort, en – minstens zo belangrijk – hoe niet, wat iets niet is.

Om een supervised learningmodel te trainen, moet je per label honderden voorbeelden verzamelen. Al die voorbeelden samen vormen straks de trainingsset die het model gaat gebruiken om van te leren. Het vinden van voorbeelden alleen al is een tijdrovende klus. Pas daarna komt het labelen.

Meer lezen over labellen in de journalistieke context? In maart 2021 zijn Beeld en Geluid, de NPO en RTL in Nederland begonnen met een gezamenlijk labelingproject.

AI = veel handwerk

Tegenwoordig kan iedereen machine learning gebruiken om teksten, beelden of documenten te analyseren. Dat komt onder meer doordat er steeds meer labelingssoftware is, waarmee je data kunt classificeren, en doordat die tools steeds makkelijker in het gebruik zijn.

AI = verantwoordelijkheid nemen

Deze ‘democratisering’ van AI brengt nieuwe mogelijkheden en voordelen binnen handbereik van iedereen, ook journalisten. Het is daardoor extra belangrijk om vooraf goed te bepalen wat je zoekt in welke data, en waarom. Daarover moet consensus zijn voordat je begint met ontwikkelen.

De verantwoordelijkheid hiervoor ligt bij de mens en niet bij de machine. De werking van je model en de resultaten die het algoritme teruggeeft, komen voort uit datgene wat jij de machine hebt geleerd. Zolang mensen het niet eens zijn over dingen (en dat zijn er vaak nogal wat) zal Machine Learning niet de oplossing zijn.

Journalistieke voorbeelden van labeling

De Amerikaanse Radio omroep KPCC gebruikte tekstclassificatie om Covid-vragen van lezers in categorieën in te delen, zodat journalisten konden ontdekken welke onderwerpen leefden bij het publiek. En het Oekraïense journalistieke onderzoekscollectief Texy.org toonde illegale mijnbouw aan in Leprosy of the Land. Hiervoor gebruikten ze single-label beeldclassificatie van satellietfoto’s (ieder beeld werd dus in één groep ingedeeld) om aan te geven waar sprake was van mijnbouw.

Andere situaties die zich goed lenen voor single-label classificatie in de journalistiek zijn:

Telegramgroepen met duizenden deelnemers en meer dan 100.000 berichten, waar (semi-)illegale oproepen worden gedaan (denk aan shaming, illegaal vuurwerk, vechtafspraken)
Comments op social media

Tegen de tijd dat je dit leest heb je wel door dat jouw individuele interpretatie en categoriseringsvermogen nogal verschilt met die van anderen. Gelukkig is dit probleem al filosofisch en praktisch opgelost.

Intersubjectiviteit

Docenten maken gebruik van intersubjectiviteit als ze jouw toetsen en verslagen beoordelen. Dat houdt in dat je goede en slechte voorbeelden verzamelt en gezamenlijk bespreekt. Op basis daarvan stel je een maatstaf op. Wanneer is iets een voldoende en wanneer niet? Die maatstaf gebruik je om nieuwe, onbekende voorbeelden onafhankelijk van elkaar te beoordelen. Die beoordelingen bespreek je weer met elkaar. De uitkomst van dat gesprek is levert een verdere fine tuning op van de maatstaf en haar interpretatie. Datzelfde kun je doen bij labeling.

Inter Annotator Agreement

Voor haatdetectie in tweets is het wenselijk als elke tweet in de dataset een label ‘wel haat’ of ‘geen haat’ heeft. Voor het ontwikkelen van zelfrijdende auto’s wil je dat videobeelden van verkeerssituaties gelabeld zijn met objecten, zoals ‘persoon’ of ‘auto’. Het handmatig toevoegen van labels noemen we annoteren. Annoteren is een tijdrovende en ingewikkelde klus. Menselijke annotatoren zijn het lang niet altijd eens, en voor een goed presterend Machine Learning-model zijn er vaak vele (tien)duizenden voorbeelden met labels nodig.

In de praktijk van Machine Learning wordt het probleem opgelost door de zogeheten Inter Annotator Agreement: een maatstaf voor hoe goed twee (of meer) annotatoren dezelfde annotatiebeslissing kunnen nemen voor een bepaalde categorie. Dit komt in de praktijk neer op: als twee van de drie annotatoren tot eenzelfde label komen, wordt dat het definitieve label voor dat voorbeeld. Je kunt de accuraatheid van een model nagaan door onder andere te letten op de Inter Annotator Agreement. Is die streng of juist niet zo streng?