AI in de journalistiek - een introductie
Op de website kun je journalistieke verhalen vinden waarin AI een rol speelt. Daarbij vind je kant-en-klare lessen die aansluiten bij uiteenlopende vakken, zoals ethiek, data en research.
Maar laten we bij het begin beginnen, want..

Deze zogeheten text-to-image (TTI) toepassingen en voorbeelden zijn inmiddels talrijk. TikTok heeft in september 2022 een AI-effect geïntroduceerd waarmee miljoenen gebruikers hun achtergrond kunnen veranderen in een beeld dat met AI is gegenereerd. Heinz Tomato Ketchup maakte een ludieke commercial waarin ze lieten zien dat wanneer je ‘ketchup’ intypt in die AI-systemen, je vrijwel altijd een afbeelding krijgt van de iconische fles van het merk.
En ook de journalistiek gebruikt inmiddels text-to-image. Zowel de glossy Cosmopolitan als nieuwsblad The Economist lieten hun coverbeeld door een AI-toepassing genereren. En het nieuwsplatform Semafor (opgericht door een ex-journalist van de New York Times) publiceerde in oktober 2022 een journalistiek verhaal over de Russische invasie in Oekraïne, waarbij ze een ooggetuigevideo verrijkten met door AI-gegenereerd beeldmateriaal.
Maar kunstmatige intelligentie wordt binnen de journalistiek niet alleen ingezet voor in het oog springende covers of trendy visuele publicaties. AI kan namelijk een rol spelen in alle fases van het journalistieke proces: van research tot productie tot distributie. Er zijn allerlei handige tools die je als journalist kunt gebruiken.
Zo analyseerden Nederlandse onderzoeksjournalisten meer dan een miljoen haattweets met behulp van AI en toonde een andere redactie oplichterij op Tinder aan met een zelfgetraind AI-model. Het ANP voegt trefwoorden aan beelden toe met een AI-model, om ze in het archief vindbaar te maken. Geen overbodige luxe als je bedenkt dat er dagelijks meer dan 40.000 beelden aan die database worden toegevoegd. Zonder goede trefwoorden zou je door de bomen het bos niet meer zien. Radiomakers, beeldredacteuren en camjo’s produceren podcasts, online video’s en stories met behulp van transcribeerders, samenvatters, kleurcorrectors en editors die allemaal onder de motorkap een vorm van AI gebruiken. In dit hoofdstuk leggen we je de basis van AI uit, zodat je een idee krijgt van wat zich onder die motorkap afspeelt.
Dat is belangrijk, want ook zonder dat je het door hebt, gebruik je vaak door algoritme gestuurde hulpmiddelen. Denk maar aan zoekmachines en sociale media.
Je vindt voorbeelden uit nationale en internationale journalistiek op deze website.
Artificial intelligence lijkt misschien iets super moderns en helemaal van nu. Maar kunstmatige intelligentie heeft een rijke geschiedenis.
Om als journalist de kritische vragen te kunnen stellen, of om je studenten dat te leren als journalistiek docent, is het handig als je in grote lijnen weet hoe AI werkt. Je hoeft daarvoor geen technologische kennis te hebben of verstand van codes. Waar het om gaat, is dat je begrijpt wat AI doet om van een bepaalde input, tot een output te komen. Welke stappen worden er eigenlijk gezet?
Als je dit hoofdstuk hebt doorlopen weet je:
- Wat een algoritme is
- Wat Rule Based AI is
- Wat Machine Learning is
- Het verschil tussen Supervised, Unsupervised en Reinforcement Machine Learning is
- Wat Deep Learning is
Laten we bij het begin beginnen.
Heel belangrijk voor AI-systemen, zijn algoritmes. Een algoritme is eigenlijk niet veel meer dan een stappenplan om een taak uit te voeren, vaak in de vorm van een reeks computerinstructies. Je kunt een algoritme vergelijken met een recept: het vertelt je hoe je de groenten snijdt, welke rijst je kookt en hoe je de banaan bakt, totdat er een eetbaar gerecht ontstaat. Algoritmen doen niet veel anders. Ze bepalen welke data er nodig zijn, wat ermee gedaan wordt en welk resultaat eruit komt; bijvoorbeeld een getal, categorie, afbeelding of geluid. Met een algoritme vertel je de machine hoe deze van een begin- naar een eindpunt komt.
Kijk maar eens naar onderstaande video.
Twee voorbeelden van algoritmisch denken: je boekenkast en een chatbot
Er zijn verschillende manieren waarop zo’n algoritme kan werken. Soms gaat het om heel eenvoudige regels.
Heb je thuis een boekenkast? Grote kans dat de boeken daarin niet op willekeurige plekken staan. Je kunt op meerdere manieren orde aanbrengen, bijvoorbeeld door je boeken alfabetisch te sorteren of op kleur te groeperen. Welke manier je kiest, is aan jou. Je doel bepaalt hoe je te werk gaat.
Sorteer je je boeken alfabetisch, dan gebruik je bijvoorbeeld dit stappenplan:
- Pak een boek.
- Lees de eerste letter van de naam van de auteur.
- Zoek in je kast andere boeken van auteurs met dezelfde letter: als die er nog niet staan, zoek de dichtstbijzijnde letters in het alfabet, en plaats het boek tussen de voorgaande en volgende letters. Ga verder met stap 1 voor het volgende boek.
- Als er al wel boeken staan met de huidige letter, lees dan de volgende letter van de naam van de auteur.
- Herhaal stap 3 en 4 totdat je een plekje hebt gevonden voor je boek. Ga verder met stap 1 voor het volgende boek.
- Herhaal tot alle boeken alfabetisch gesorteerd in de boekenkast staan.
Als je je boeken op kleur wil groeperen, dan kan je werkwijze er als volgt uitzien:
- Kies een kleur.
- Pak alle boeken waarvan de rug van de kaft grotendeels die kleur heeft.
- Kies een plek in je boekenkast en zet daar alle boeken van de betreffende kleur naast elkaar.
- Herschik eventueel nog wat boeken om kleine nuances binnen de gekozen kleur te verwerken: lichtgeel bij lichtgeel en donkergeel bij donkergeel.
- Ga verder met stap 1 voor de volgende kleur.
- Herhaal tot alle boeken een plek hebben gekregen in de boekenkast.
Een algoritme is eigenlijk niet anders dan zo’n stappenplan. Er zijn vele soorten algoritmes. Elk type dat je kiest hangt af van de taak die je wil uitvoeren. Net als bij de boeken: als je je boeken op kleur wil sorteren, heb je weinig aan een stappenplan op basis van auteursnaam.
Niet alleen voor algoritmes geldt dat het belangrijk is dat je kritisch bent welke je kiest. Het is ook cruciaal dat je relevante kenmerken gebruikt van je boeken (je data). Zulke kenmerken noemen we features. Om alfabetisch te kunnen sorteren moet je beschikken over de naam van de auteur (of titel) in een alfabet dat je kent. De feature ‘auteursnaam’ is noodzakelijk, maar de feature ‘kleur van de kaft’ is in dit geval overbodig.
Chatbots
Dan nu een journalistiek voorbeeld. Ook sommige chatbots werken met eenvoudige algoritmen. Je kent ze wel: je wil iets vragen aan een instantie of redactie, en dat kan via de chat. Zodra je iets intikt, stelt de chatbot zich voor.
‘Hi, ik ben Lisa, een chatbot. Waar kan ik je mee helpen?’
Vervolgens verschijnen er keuzeopties. Van: ‘Ik wil het laatste nieuws weten’, tot: ‘Ik heb een tip voor de redactie’. Zodra je ervoor kiest om het laatste nieuws te ontdekken, verschijnen er opnieuw opties. Wil je iets weten over politiek, sport of klimaat? Op basis van jouw keuzes, weet de chatbot wat hij je moet aanraden.
Dit is een heel simpele vorm van een algoritme. Het algoritme is zo ingesteld, dat hij weet hoe hij op jouw keuzes moet reageren. Dus als je kiest voor ‘Ik wil het laatste nieuws weten’, weet het systeem dat het je een aantal onderwerpen moet voorschotelen om uit te kiezen.
Rule-based
Als je bovenstaande scenario’s voor het sorteren van je boeken of de chatbot door een computer laat uitvoeren, hoeft er geen AI of machine learning aan te pas te komen. Een programmeur kan deze algoritmes met wat simpele regels implementeren en de computer kan de taak keer op keer goed uitvoeren.
Dit type AI heet ook wel rule based (‘regelgebaseerd’). Dat wil zeggen: Mensen stellen regels op, waar de machine zich heel direct aan dient te houden. Bijvoorbeeld: Als de gebruiker optie A (‘Ik wil het laatste nieuws weten’) kiest, reageer je met antwoord A (‘In welk onderwerp ben je geïnteresseerd?’).
Ingewikkelder zijn de algoritmes bij andere typen van AI. Neem het deelgebied Machine Learning.
Machine learning (ML)
Stel, je wil net zoals in de één van de eerdere video’s, een computersysteem leren afbeeldingen van honden en katten te onderscheiden. Als je dat doet door alleen afbeeldingen van de twee diersoorten te tonen, dan spreken we van machine learning. Het is het proces waarbij computers leren aan de hand van voorbeelden; zonder het programmeren van expliciete regels.
In een ML-proces leert een computer dus zelf wat het moet doen aan de hand van voorbeelden uit het verleden. Dankzij ML herkennen computers patronen die wij mensen over het hoofd zien. Dat maakt ML-toepassingen interessant.
Denk bijvoorbeeld aan vertaalmachines, zoals Google Translate. Voordat ML om de hoek kwam kijken, bestonden zulke vertaalprogramma’s uit expliciete regels. Ze konden woorden alleen precies zo vertalen als in het woordenboek stond opgegeven. Tegenwoordig gebruiken vertaalmachines enorme hoeveelheden tekst in meerdere talen. Ze leiden daaruit zelf af hoe een woord of een zin in een bepaalde taal geformuleerd moet worden.
Er zijn tal van toepassingen waarin ML een rol speelt. Denk maar aan spamfilters, gezichtsherkenning en advertenties. Ook Netflix past Machine Learning toe om te bepalen welk aanbod het jou voorschotelt.
Deep Learning gaat zelfs nog een stapje verder. Daarbij biedt je de machine alleen data aan, zonder die data van labels te voorzien.
Als je een ML-systeem het verschil tussen honden en katten wil leren, biedt je het eerst foto’s aan waarbij je aangeeft of het om een hond of een kat gaat. Dat zijn de labels. Bij deep learning bied je het systeem alléén de foto’s aan, zonder die labels dus.
Op basis van enkel data (bijvoorbeeld de honden- en kattenfoto’s) ontdekt een Deep Learning AI-systeem zelfstandig patronen en regels. Om dat te kunnen, maakt DL gebruik van neurale netwerken. Ingewikkeld? Dat valt wel mee. Bekijk onderstaande video’s maar eens.
Drie soorten Machine Learning
Binnen ML onderscheiden we vaak verschillende categorieën. Het verschil zit hem in het soort data die je tot je beschikking hebt, en de taak die je wil uitvoeren. We bespreken hieronder de belangrijkste categorieën van Machine Learning: Supervised, Unsupervised en Reinforcement Learning.
Supervised learning
Stel, je wil een nieuwe taal leren, zoals Engels. Er zijn meerdere manieren waarop je dat kunt aanpakken. Je kunt bijvoorbeeld een woordenboek aanschaffen en vertalingen uit je hoofd leren. Het woordenboek vertelt je dat ‘huis’ zich vertaalt als ‘house’ en ‘kat’ als ‘cat’. Door deze woordjes voor jezelf te herhalen, bouw je een woordenschat op en kun je steeds beter uit de voeten met je nieuwe taal.
Deze aanpak is een voorbeeld van supervised learning (‘gecontroleerd leren’). De uitkomsten van wat je wil leren zijn al van tevoren bekend: je hebt de vertalingen tot je beschikking, en je wil dat het model leert om diezelfde vertalingen zelf te vinden. Je hebt bij Supervised Machine Learning dus gelabelde data nodig (de vertalingen van woorden in dit geval). Het ML-algoritme leert om die uitkomsten te reproduceren.
Meer in journalistieke context kun je bij Supervised Machine Learning denken aan het voorbeeld van de miljoenen haattweets. Daarbij stelden de journalisten steeds de vraag waarover een haattweet ging. Ze gebruikten daarvoor de labels ‘lichaam’, ‘leeftijd’, ‘gender’, ‘religie’ en ‘etniciteit’.
Bedenk goed dat supervised learning begint bij mensen. De selectie van de voorbeelden, de gekozen labels en de toekenning ervan aan de verschillende voorbeelden (de data) worden door mensen bepaald en uitgevoerd. Met deze door mensen gelabelde voorbeelden wordt vervolgens het AI-systeem getraind. De mens is hier de supervisor, en zo komt dit type machine learning ook aan de naam: supervised learning.
Let op: jij bent dus verantwoordelijk voor wat het AI-systeem leert.
Unsupervised learning
Naast Supervised Machine Learning, bestaat er Unsupervised Machine Learning. Laten we het voorbeeld over het leren van een taal er weer bij halen.
Je kan woordjes uit je hoofd leren, zoals in het eerste voorbeeld. Maar een andere aanpak kan zijn om Engelstalige televisie te kijken (zonder ondertiteling) of een Engelstalig boek te lezen. Omdat je geen vertalingen tot je beschikking hebt, moet je zelf herleiden wat een woord betekent. Dit klinkt lastig, maar als je jezelf maar genoeg blootstelt aan een nieuwe taal ga je vanzelf patronen herkennen. Het valt je op dat mensen ‘I’ gebruiken als ze over zichzelf praten en ‘you’ als ze tegen een ander praten. Hierdoor leer je dat je deze woorden zelf ook op die manier kunt gebruiken.
Deze aanpak is een voorbeeld van unsupervised learning (‘ongecontroleerd leren’). Je weet nu niet van tevoren wat je precies moet leren, maar door voldoende voorbeelden in de juiste context, word je steeds beter in je nieuwe taal. Unsupervised Machine Learning werkt op dezelfde manier: het leert zelfstandig en al doende.
Om Unsupervised Machine Learning beter uit te leggen, nemen we het kat-en hond-voorbeeld uit de introductie er weer bij. Maar in dit geval geven we géén labels aan de foto’s van de dieren. Daardoor weet het systeem niet welke afbeelding een kat of juist een hond bevat. In plaats van gelabelde data gebruik je nu ongelabelde data, waarin het ML-algoritme zelf op zoek gaat naar patronen. Zo leert het unsupervised learning systeem in dit voorbeeld, door de verschillende afbeeldingen te bekijken en te vergelijken, dat er duidelijke verschillen en overeenkomsten bestaan tussen afbeeldingen van honden en afbeeldingen van katten. Het leert de patronen herkennen en ontdekt zo wat kenmerkend is voor honden en voor katten.

Clusteren
Wat een unsupervised systeem doet is ‘clusteren’. Dat is het zoeken in je data naar voorbeelden die op elkaar lijken. Zo deelt het systeem de voorbeelden op in groepen. Clustering wordt veel toegepast op datasets met informatie over personen. Voor bedrijven is het vaak interessant om groepen klanten te identificeren; zij kunnen hun diensten of reclames dan variëren van groep tot groep. Denk maar eens aan de reclames die je krijgt op Instagram of Facebook. Met clustering maak je zulke groepen, zonder dat je van tevoren hoeft aan te geven hoeveel groepen er zijn en welke persoon in welk groepje valt.
Clustering kan ook gebruikt worden om afbeeldingen met veel overeenkomsten te groeperen. Zo kan een clusteringalgoritme hondenfoto’s van kattenfoto’s onderscheiden, zonder te begrijpen wat er op de verschillende afbeeldingen staat. Het is dan de mens die er vervolgens begrip aan toe kent door er een label aan te hangen.
Een praktijkvoorbeeld van Unsupervised Learning: hoe complottheorieën zich online verspreiden
Journalisten gebruiken clustering wanneer ze interacties tussen gebruikers op sociale netwerken in kaart brengen. Bijvoorbeeld als ze willen weten hoe content van influencers zich verspreidt of hoe complottheorieën hun weg vinden naar de ‘mainstream media’. Rosa van Gool en Coen van de Ven (De Groene Amsterdammer) onderzochten in 2020 hoe mensen corona en 5G met elkaar in verband brachten op social media. Mensen die elkaars berichten liketen, retweeten of erop reageerden, creëerden zo ‘relaties’. Al die onderlinge relaties leverde een beeld op (zie onder) van groepen mensen die op inhoud met elkaar te maken hebben. Zo vormden zij clusters.

Door uit te zoomen kun je zo deze verschillende groepen, clusters van mensen of inhoud, van elkaar onderscheiden. Vervolgens kun je er alsnog een label aan toekennen, zodat je nader onderzoek kunt doen naar bijvoorbeeld complotdenkers of links-progressieven.
Let op: het toekennen van labels aan de clusters, zoals hier in het voorbeeld ‘mainstream’ of ‘Vlaanderen’ doen mensen en niet het AI-systeem. Door menselijke analyse van de twitteraars binnen een cluster, ontstond de mogelijkheid om het type twitteraar te classificeren.
Zo zie je maar: ook hier is labeling mensenwerk en daardoor arbitrair. Een goede verantwoording is dan ook nog altijd nodig om de selectie van voorbeelden en de bijbehorende labels uit te leggen aan collega’s, bronnen en publiek.
Reinforcement learning
Het derde en laatste type Machine Learning is Reinforcement Learning. Om uit te leggen hoe dit werkt, gaan we opnieuw terug naar het voorbeeld over het leren van een nieuwe taal.
We hebben het gehad over het leren van een nieuwe taal door woorden te leren uit een woordenboek, of door televisie te kijken in de betreffende taal, zonder ondertiteling. Een derde manier om Engels te leren, is door te reizen naar een land waar het de voertaal is, en je daar onder de mensen te begeven. Je gaat een gesprek aan in het Engels en krijgt feedback wanneer je een fout maakt. Deze feedback kan expliciet zijn (iemand corrigeert je) of impliciet (je vangt op dat anderen het anders zeggen dan jij). Dit helpt je om beter te worden. Dit lijkt op hoe een peuter leert praten. Het kind zegt ‘ik loopte’, krijgt van z’n ouders te horen: ‘ik liep’, maakt de fout misschien nog een paar keer, maar kiest uiteindelijk steeds vaker voor de juiste vervoeging.
Deze aanpak is een voorbeeld van Reinforcement Learning (‘versterkend leren’). Je leert door vallen en opstaan: door fouten te maken, correctie en beloning.
In ML wordt Reinforcement Learning gebruikt voor complexe toepassingen zoals robotbewegingen, zelfrijdende auto’s of het spelen van games. Als je zelf met ML aan de slag gaat, is de kans klein dat je met Reinforcement Learning te maken krijgt. Je hebt vaak geen toegang tot de nodige feedback, en zult dus met supervised of unsupervised learning aan de slag moeten.
Als gebruiker heb je waarschijnlijk wel talloze keren bijgedragen aan AI-systemen die Reinforcement Learning gebruiken. Denk bijvoorbeeld aan sociale media waarbij ingewikkelde algoritmes proberen te voorspellen wat jij wel en niet interessant vindt. Like jij een bericht dat Instagram je voorschotelde? Als gebruiker geef je zo steeds feedback aan het systeem. Op die momenten wordt Machine Learning gecombineerd met input van mensen. De menselijke input fungeert dan ook als data. Blijkbaar viel de Instagram-post in de smaak.
Reinforcement learning wordt niet alleen gebruikt op social media, maar ook bij advertenties van Google. Heb je wel eens meegemaakt dat je een advertentie werd voorgeschoteld, met daarbij de vraag ‘Was deze advertentie nuttig?’. Als je op ‘Nee’ klikt, volgt de vraag ‘Waarom niet?’. Ook dat is informatie die het algoritme gebruikt om zich te verbeteren.
Je hebt in de vorige paragraaf geleerd dat we op deze website verschillende typen van automatisering onderscheiden. Omdat deze allemaal op een andere manier werken, moet je op verschillende dingen alert zijn. Bekijk de voorbeeldverhalen om meer te ontdekken.
Verantwoordelijk AI ontwikkelen
Ook moeten we goed nadenken over de verantwoordelijkheid rondom AI-toepassingen. Wie bepaalt of een AI-systeem goed werkt? Het is goed om daarbij een aantal uitgangspunten te hanteren.
1. Wie verzamelt / heeft de data?
Om te beginnen zijn er voor de ontwikkeling van AI voorbeelden nodig, data genoemd, waar de computer van kan leren. Data kunnen van alles zijn, van afbeeldingen tot tweets en van gestructureerde databases met persoonsgegevens tot een download van de volledige Wikipedia. Het hangt van je toepassing af wat voor data je nodig hebt. Data kunnen voorzien zijn van labels, bijvoorbeeld of tweets wel of geen fake news bevatten en of personen in een database wel of niet hebben gestemd bij de laatste verkiezingen. Dat noemen we gelabelde data. Wanneer labels afwezig zijn, spreken we van ongelabelde data.
Voor grote hoeveelheden data gebruiken we de populaire term big data. Vanaf welke hoeveelheid gewone data big data worden, ligt niet vast. Maar big data zijn in ieder geval veel te groot om handmatig te verwerken. Een computer kan dat wel: die heeft veel tijd en kan vooral razendsnel rekenen. Maar als journalist moet je erop bedacht zijn dat data en AI bias kunnen bevatten.
‘AI-systemen leren van subjectieve bronnen: onszelf, onze voorkeuren, ons interactiegedrag. Het leren van subjectieve bronnen zorgt vanzelfsprekend voor subjectieve uitkomsten’, schreven Maarten de Rijke, AI professor aan de Universiteit van Amsterdam en zijn (destijds) promovendus David Graus al in 2016 in een opiniestuk in NRC, getiteld Wij zijn racisten, daarom Google ook.
Tip: Met het Impact Assessment voor Mensenrechten bij de inzet van Algoritmes (IAMA) kan een afgewogen discussie gevoerd worden tussen de relevante partijen bij de afweging om wel of niet een algoritmische toepassing te gaan ontwikkelen
2. Wie bepaalt de labels, en hoe?
Ook de labels die je aan je data hangt, zijn bepalend voor de werking van je AI-systeem.
Laten we starten met een gedachte-experiment. Je hoeft maar twee dingen te doen. Beantwoord allereerst in gedachten de volgende vraag:
Waar werd je de afgelopen week blij van?
Denk er even goed over na. Als je iets in gedachten hebt, kun je door naar de volgende vraag:
Hoe zou je jouw blijheid classificeren? Je moet één van de volgende categorieën kiezen:
- Prestatie
- Affectie
- Binding
- Genieten van het moment
- Beweging / sport
- Vrije tijd
- Natuur
Lukte dat? Of was het lastig om één hokje te kiezen? Misschien miste je een categorie. Laten we het een proberen met een blij moment van een ander:
“Ik ging op een succesvolle date.”
Je mag weer slechts een van de zeven bovenstaande redenen toekennen. Je voelt de discussie al aankomen. “Ja, maar wat nou als de persoon ging wandelen op de hei met die date? En het hun eerste date in jaaaaaren was?” Met een beetje goede wil kruis je voor deze succesvolle date vrijwel alle opties aan. Maar ja, het AI-model dwingt je om te interpreteren en een enkele categorie te kiezen.
Dit is precies waar single-label classificatie over gaat: kun je van tevoren de juiste labels bedenken voor voorbeelden die je al kent, én zorgen dat die ook nog eens goed werken op alle echte gebeurtenissen in de toekomst? En hoe bepaal je welke voorbeelden je gebruikt om te labelen, wanneer dat er genoeg zijn en hoe divers ze moeten zijn?
Happy Moment dataset
Het Blije Moment-experiment hebben we geleend van de Happy Database: a Corpus of 100,000 Crowdsourced Happy Moments.
Binnen machine learning valt het Happy Moments project onder de zogeheten single-label classificatie (SLC) vraagstukken. Dat betekent dat dingen slechts in een enkel (‘single’) hokje mogen. SLC klinkt redelijk duidelijk en eenvoudig, maar is het in de praktijk niet. Aan goede labeling gaan de volgende stappen vooraf:
- je moet gevarieerde, relevante, realistische voorbeelden selecteren;
- je moet benoemen welke kenmerken doorslaggevend zijn bij het bepalen van het label;
- je moet overeenstemming bereiken met anderen over de interpretatie van de kenmerken en de labels.
Alleen zo kun je met andere labelers – annotatoren genaamd – onderling bepalen wanneer iets wel of niet tot een bepaalde klasse (‘class’) behoort en welk label ieder voorbeelditem krijgt.
Het labelen van data is essentieel voor de supervised learning vorm (de veelgebruikte AI-aanpak om machines iets te leren (zie ook het voorbeeld over Engels eerder in deze introductie). De term ‘supervised’ zegt het al: als supervisor kies je de juiste voorbeelden om een ander te tonen waar je naar op zoek bent; hoe ‘iets’ moet, werkt of hoort, en – minstens zo belangrijk – hoe niet, wat iets niet is.
Om een supervised learningmodel te trainen, moet je per label honderden voorbeelden verzamelen. Al die voorbeelden samen vormen straks de trainingsset die het model gaat gebruiken om van te leren. Het vinden van voorbeelden alleen al is een tijdrovende klus. Pas daarna komt het labelen.
Meer lezen over labellen in de journalistieke context? In maart 2021 zijn Beeld en Geluid, de NPO en RTL in Nederland begonnen met een gezamenlijk labelingproject.
AI = veel handwerk
Tegenwoordig kan iedereen machine learning gebruiken om teksten, beelden of documenten te analyseren. Dat komt onder meer doordat er steeds meer labelingssoftware is, waarmee je data kunt classificeren, en doordat die tools steeds makkelijker in het gebruik zijn.
AI = verantwoordelijkheid nemen
Deze ‘democratisering’ van AI brengt nieuwe mogelijkheden en voordelen binnen handbereik van iedereen, ook journalisten. Het is daardoor extra belangrijk om vooraf goed te bepalen wat je zoekt in welke data, en waarom. Daarover moet consensus zijn voordat je begint met ontwikkelen.
De verantwoordelijkheid hiervoor ligt bij de mens en niet bij de machine. De werking van je model en de resultaten die het algoritme teruggeeft, komen voort uit datgene wat jij de machine hebt geleerd. Zolang mensen het niet eens zijn over dingen (en dat zijn er vaak nogal wat) zal Machine Learning niet de oplossing zijn.
Journalistieke voorbeelden van labeling
De Amerikaanse Radio omroep KPCC gebruikte tekstclassificatie om Covid-vragen van lezers in categorieën in te delen, zodat journalisten konden ontdekken welke onderwerpen leefden bij het publiek. En het Oekraïense journalistieke onderzoekscollectief Texy.org toonde illegale mijnbouw aan in Leprosy of the Land. Hiervoor gebruikten ze single-label beeldclassificatie van satellietfoto’s (ieder beeld werd dus in één groep ingedeeld) om aan te geven waar sprake was van mijnbouw.
Andere situaties die zich goed lenen voor single-label classificatie in de journalistiek zijn:
- Telegramgroepen met duizenden deelnemers en meer dan 100.000 berichten, waar (semi-)illegale oproepen worden gedaan (denk aan shaming, illegaal vuurwerk, vechtafspraken)
- Comments op social media
Tegen de tijd dat je dit leest heb je wel door dat jouw individuele interpretatie en categoriseringsvermogen nogal verschilt met die van anderen. Gelukkig is dit probleem al filosofisch en praktisch opgelost.
Intersubjectiviteit
Docenten maken gebruik van intersubjectiviteit als ze jouw toetsen en verslagen beoordelen. Dat houdt in dat je goede en slechte voorbeelden verzamelt en gezamenlijk bespreekt. Op basis daarvan stel je een maatstaf op. Wanneer is iets een voldoende en wanneer niet? Die maatstaf gebruik je om nieuwe, onbekende voorbeelden onafhankelijk van elkaar te beoordelen. Die beoordelingen bespreek je weer met elkaar. De uitkomst van dat gesprek is levert een verdere fine tuning op van de maatstaf en haar interpretatie. Datzelfde kun je doen bij labeling.
Inter Annotator Agreement
Voor haatdetectie in tweets is het wenselijk als elke tweet in de dataset een label ‘wel haat’ of ‘geen haat’ heeft. Voor het ontwikkelen van zelfrijdende auto’s wil je dat videobeelden van verkeerssituaties gelabeld zijn met objecten, zoals ‘persoon’ of ‘auto’. Het handmatig toevoegen van labels noemen we annoteren. Annoteren is een tijdrovende en ingewikkelde klus. Menselijke annotatoren zijn het lang niet altijd eens, en voor een goed presterend Machine Learning-model zijn er vaak vele (tien)duizenden voorbeelden met labels nodig.
In de praktijk van Machine Learning wordt het probleem opgelost door de zogeheten Inter Annotator Agreement: een maatstaf voor hoe goed twee (of meer) annotatoren dezelfde annotatiebeslissing kunnen nemen voor een bepaalde categorie. Dit komt in de praktijk neer op: als twee van de drie annotatoren tot eenzelfde label komen, wordt dat het definitieve label voor dat voorbeeld. Je kunt de accuraatheid van een model nagaan door onder andere te letten op de Inter Annotator Agreement. Is die streng of juist niet zo streng?
📚 Lesmateriaal
Opdracht: Beloften & gevaren
💡 Leerdoel: Je ontdekt dat er meerdere zienswijzen zijn over de impact van AI, zodat je rekening kunt houden met collega’s of gebruikers die anders denken over dit onderwerp.
Stap 1: schrijf individueel op post-its zoveel mogelijk beloften van AI op (zowel voor de journalistiek als in het algemeen). Schrijf ook zoveel mogelijk gevaren van AI op. Groot, klein, dystopisch, futuristisch – alles mag, ook voorbeelden van buiten de journalistiek. Let op: één punt per post-it.
Plak de post-its in het kwadrant op de plek die jij passend vindt.
Bespreek klassikaal welke post-its jullie hebben opgeplakt en waarom op deze plek. Wat valt op?
💭 Bespreking
Enkele vragen om klassikaal te bespreken:
- Wat betekent AI voor het werk van een journalist? Krijgt deze minder werkzaamheden, wordt hij overbodig of krijgt hij er juist taken bij?
- Wie is er verantwoordelijk als het mis gaat? Denk aan ongelukken met zelfrijdende auto’s. Wiens schuld is dat? Hoe zit dat in de journalistiek?
- Schrijvers, illustratoren en fotografen zijn soms bang dat hun werk wordt gebruikt voor AI-tools zoals DALL-E of ChatGPT. Hoe zit het met copyright? Wat vinden jullie eerlijk?
- Wat als iemand in een filterbubbel terecht komt met voornamelijk fake nieuws?
- Hoe om te gaan met deep fakes?
🧰 Materiaal
- Post-its
- Pennen en markers
- Whiteboard met daarop een kwadrant getekend
⏱ Tijdsindicatie
30 minuten totaal, te verdelen in:
- 10 minuten om de post-its te schrijven
- 5 minuten om de post-its te groeperen
- 5 minuten om alle post-its te lezen en de drie belangrijkste of opvallendste te noteren
- 10 minuten om klassikaal te bespreken (zie antwoordmodel voor de docent)
Opdracht: Lagerhuis
💡 Leerdoel: Je leert nadenken over de impact, voor- en nadelen van AI voor de journalistiek en kunt je mening onderbouwen
Er bestaan vele vormen en toepassingen van AI. Op deze website vind je een aantal voorbeelden, maar er zijn er natuurlijk nog veel meer. Het is belangrijk dat je als journalist stilstaat bij de mogelijkheden, risico’s en voor- en nadelen van AI.
Voor deze oefening ga je met je studiegenoten in debat over de stelling:
Artificial Intelligence in de journalistiek doet meer goed dan kwaad.
De docent deelt de klas in tweeën. Groep A is voor de stelling, groep B is tegen de stelling.
Deel 1: Het verkennen van AI in de journalistiek
Voor veel mensen is AI nog een onduidelijk begrip. Daarom is het eerst belangrijk om het terrein te verkennen: Welke toepassingen van AI zijn er eigenlijk in de journalistiek? Maak eerst met je groep een mindmap.
Tip: gebruik de voorbeelden en uitleg op deze website!
Deel 2: Argumenten bedenken
Nu je een beter beeld hebt van wat AI kan doen in de journalistiek is het tijd om argumenten voor of tegen de stelling te bedenken. Je mag daarbij natuurlijk online research doen. Je bent tenslotte journalist! Welke argumenten dragen experts aan?
💭 Bespreking
Tijd om te debatteren! De groep voorstanders gaat aan de ene kant van het klaslokaal zitten, de groep tegenstanders aan de andere kant. Als je iets wilt zeggen, steek je je hand op. Als de docent je de beurt geeft, ga je staan.
Na afloop van het debat, kun je met elkaar bespreken wat je échte mening over de stelling is. Zijn er mensen veranderd van mening na het debat?
🧰 Materiaal
- Deze website
- Laptops
- Pen en papier voor de mindmaps
⏱ Tijdsindicatie
75 minuten, waarvan:
- 20 minuten voor het maken van een mindmap
- 30 minuten voor research en het bedenken van argumenten
- 20 minuten voor het debat
- 5 minuten nabespreken
Opdracht: Zoek de verschillen
💡 Leerdoel: Je ontdekt het verschil tussen Supervised Machine Learning, Reinforcement Learning en Rule-Based modellen.
Op deze website staan allerlei journalistieke voorbeelden waarin AI is gebruikt. Daarvoor zijn verschillende typen modellen gebruikt.
Maak tweetallen en zoek samen één voorbeeld van Supervised Learning, één van Rule Based modellen en één van Reinforcement Learning op deze site. Als je wil, mag je ook buiten deze site zoeken.
Sla de links naar je voorbeelden op en schrijf in je eigen woorden op wat het verschil is tussen Supervised Machine Learning, Reinforcement Learning en Rule Based modellen.
Tip: hier lees je een uitleg van de drie modellen.
💭 Bespreking
- Welke voorbeelden hebben jullie gevonden?
- Van welk type AI is er sprake in jullie voorbeelden?
- Kunnen jullie het verschil uitleggen tussen de modellen?
- Weten jullie ook wat Unsupervised Machine Learning is?
🧰 Materiaal
- Een laptop per student (of minimaal één laptop per twee studenten)
⏱ Tijdsindicatie
40 minuten, waarvan:
- 15 minuten voor het lezen van de uitleg
- 15 minuten voor het zoeken van voorbeelden
- 10 minuten om na te spreken