FactRank vertelt journalisten welke uitspraken ze kunnen factchecken

📰 Het verhaal 

Politici doen continu beweringen. Waar moet je beginnen als je de uitspraken van duizenden lokale en nationale politici wil controleren? Dat is bijna niet te doen.

Met de tool FactRank wordt de selectie van ‘factcheckbare’ uitspraken een stuk makkelijker. Wist je dat bijvoorbeeld alle debatverslagen van de Tweede Kamer online staan? FactRank haalt automatisch al deze verslagen op zodra ze online komen. Het programma scant de teksten,  speurend naar zinnen die beweringen bevatten en daardoor geschikt zijn voor factcheckers. Als journalist hoef je dan niet langer zelf alles te volgen wat politici beweren. Als FactRank een checkbare uitspraak vindt, kunnen journalisten vervolgens zelf bepalen of de bewering een factcheck waard is. 

Deze werkwijze leidde na lancering al snel tot de eerste factcheck. Het ging om een uitspraak van Lodewijk Asscher, die niet bleek te kloppen. Asscher stelde dat het aantal meldingen van huiselijk geweld tijdens de covidcrisis met 50% was toegenomen in Friesland. De uitspraak werd door FactRank gedetecteerd en journalistiek onderzoek wees uit dat dit niet klopte: het aantal meldingen was niet gestegen, maar nagenoeg gelijk gebleven.

📈 De data

Alle debatten die in de Tweede Kamer worden gevoerd zijn online in tekst beschikbaar. Dit is de informatie waarmee het programma werkt, ook wel de data genoemd. Het programma analyseert de teksten. Maar niet alles wat een politicus zegt, is een checkbare uitspraak. Stel dat iemand zegt:

‘Dankuwel, mevrouw de voorzitter. Ik ben het pertinent oneens met wat de heer Nijkerk zegt over stikstof’

Aan zo’n uitspraak valt niks te checken.

Maar als iemand zou zeggen:

‘Onderzoek laat zien dat Nederland minder stikstof uitstoot dan 80% van de Europese landen’

Dan hebben we te maken met een uitspraak die we kunnen controleren. Het is de taak van de AI om op te merken welke uitspraken checkbaar zijn, en welke niet. Maar hoe werkt dat?

🦾 De AI 

De makers van de tool hebben zelf allereerst duizenden beweringen handmatig beoordeeld. Ze stelden zich daarbij steeds de vraag: “Willen we het zien verschijnen in FactRank of niet?”.  Ze hielden daarbij het Codeboek FactRank in de hand, waarin de voorwaarden staan waaraan een zin moet voldoen om vast te kunnen stellen of deze controleerbaar is.

Daarin staat bijvoorbeeld uitgelegd wanneer een zin die cijfers bevat moet worden gelabeld als ‘checkbaar’ en ‘relevant’ en wanneer niet. In het codeboek staat bijvoorbeeld:

“Zinnen met cijfers en getallen zijn vaak feitelijk. Maar lang niet altijd relevant.

Zinnen met cijfers zijn niet relevant als het gaat om een bewering die zo evident is dat het onnodig is om te checken.

Voorbeeld: “Iedereen weet dat 1 plus 1, 2 is.”

Sommige zinnen met cijfers zijn weliswaar feitelijk, maar niet relevant om te checken, omdat ze niet zo ter zake doen, niet zorgen voor controverse, niet tot de verbeelding spreken van een groot publiek.

Voorbeeld: “Samen met 122 andere landen hebben we in de Algemene Vergadering van de Verenigde Naties gevraagd dat er in Aleppo een staakt-hetvuren wordt afgekondigd.”

Toelichting: Je kan checken of dit inderdaad 122 landen waren, maar veel mensen zal het niks uitmaken of het er een paar meer of minder waren. Daarom coderen als FNR: feitelijk en niet-relevant.”

De statements die de onderzoekers wél als checkbaar codeerden, werden als trainingsdata ingevoerd. “Van die informatie leert het programma om controleerbare verklaringen te herkennen”, legt onderzoeker van de Universiteit Leiden Alexander Pleijter uit. 

We noemen een AI-systeem dat op deze manier leert ook wel Supervised Machine Learning. Dat betekent dat mensen het AI-systeem voeden met voorbeelden (in dit geval uitspraken van politici, met de labels ‘checkbaar’ / ‘niet-checkbaar’, en ‘relevant’ / ‘niet relevant’). Het model leert daarvan, terwijl mensen steeds kunnen controleren of het model goed werkt of moet worden bijgestuurd. Als het model genoeg voorbeeld-Tweets met label (checkbaar, relevant, etc.) gezien heeft, is het uiteindelijk in staat om aan nieuwe voorbeelden het juiste label te hangen. 

De onderzoekers hebben Machine Learning gebruikt omdat het bepalen wanneer uitspraken controleerbaar zijn, te ingewikkeld is om in enkele regels te vatten. Ga maar eens na welke variabelen, mitsen en maren en uitzonderingen er zijn. In welke context is een cijfer bijvoorbeeld relevant om te checken?

Jan Jagers, een van de initiatiefnemers van FactRank geeft een voorbeeld: “Vlaamse voetballer Kevin de Bruyne verdient X euro per jaar.” Deze uitspraak is volgens het Codeboek FactRank controleerbaar, maar volgens Jagers is het voor het grote publiek niet per se relevant om te weten of de bewering juist is. 

Het model moet dus behoorlijk slim zijn om uitspraken op zowel checkbaarheid als op relevantie beoordelen. Om dergelijke complexe modellen te trainen, is Supervised Machine Learning nodig.

Als het model eenmaal is getraind en kan worden ingezet, leert het systeem zichzelf verbeteren. Factcheckers kunnen per gedetecteerde en gecodeerde uitspraak van FactRank aangeven of dit inderdaad een checkbare uitspraak is of niet. In de praktijk gebeurt dit nog niet. Deze nieuwe input van mensen zou het model kunnen gebruiken om zich te hertrainen, zodat het steeds beter wordt in zijn taak. Zo zou het model bij elke menselijke beoordeling worden versterkt. We noemen dat ook wel Reinforcement Learning.

Meer over Supervised Machine Learning en Reinforcement Learning lees je hier.

⚖️ Ethiek en betrouwbaarheid 

Doordat FactRank steeds weer wordt ‘bijgevoed’ met de feedback van gebruikers, kan de tool over een langere periode gebruikt worden voor het analyseren van debatten in de Tweede Kamer. Juist doordat de tool alle uitspraken van alle debatten voor de factchecker analyseert, krijgt de factchecker een breed aanbod van mogelijk checkbare uitspraken, en dus een goede diversiteit aan data. Dat is belangrijk, want hoe diverser de input, hoe kleiner de kans op vooroordelen (bias) in de output.

Toch bestaat het risico op bias altijd. Als er vooroordelen zijn die breed gedragen zijn onder de gebruikers, kunnen die in het model sluipen. Zo zou het kunnen gebeuren dat een meerderheid van de gebruikers bepaalde beweringen irrelevant vindt om te controleren, terwijl deze voor een minderheid van de samenleving wel degelijk van belang zijn. Dit is een algemeen probleem van Reinforcement Learning (de stem van de meerderheid telt), dat ook bij FactRank kan opspelen.

📚 Lesmateriaal

💡 Leerdoel: Je leert trainingsdata maken met een code boek, en ontdekt het belang van kalibreren om tot een zo objectief mogelijk oordeel te komen

Zonder goede trainingsdata, geen FactRank. Maar hoe moeilijk is het eigenlijk om trainingsdata te labelen? Zijn jullie het eens over wat FactRank zou moeten labelen als een checkbare uitspraak? Daar gaan we met deze oefening achter komen.

Neem eerst ongeveer 10 minuten om het codeboek van FactRank te scannen. Dit is het codeboek dat de menselijke codeurs achter FactRank gebruiken. Lees in ieder geval de inleiding.

Codeer vervolgens zin voor zin de onderstaande tekst. Negeer hierbij je eigen mening over wat leuk is om te checken. Volg strikt de instructies van het codeboek. Markeer zinnen die niet feitelijk (NF) zijn rood, zinnen die feitelijk en relevant (FR) zijn groen en zinnen die feitelijk en niet-relevant (NFR) zijn blauw.

Uit verschillende onderzoeken blijkt dat vrouwen zichzelf systematisch onderschatten, waar mannen zichzelf eerder te veel kennis van zaken zullen toebedelen. Daarnaast worden mannen sneller als briljant gezien, waardoor het voor de vrouw moeilijker is zichzelf aan de talkshowtafel als kundig te bewijzen.

Als redacteur van een talkshow is het zaak daar doorheen te prikken en vrouwen te overtuigen van hun kwaliteiten. Bellen, bellen, bellen luidt dan het devies. We bellen ons suf. Er zijn ook dagen geweest waarop ik de handdoek in de ring heb gegooid. Voor elke twijfelende vrouw staan er tien mannen te popelen. Allereerst is het aan vrouwen om in het gat te springen, om zichzelf – of desnoods andere vrouwen – naar voren te schuiven en die ruimte te claimen.

– Floor Doppen, column de Volkskrant, 22 augustus 2022

💭 Bespreking

Laat iedereen zijn resultaten voor in de ruimte hangen. Waar zitten de verschillen, zijn die op te lossen als je het codeboek er nog eens bij pakt? Kun je het eens worden over wat NF, FR en NFR is? Dit proces noem je kalibreren. Dit is heel belangrijk bij het ontwikkelen en verbeteren van een codeboek.

Kijk vervolgens nog eens naar de tekst. Welke zin is het meest geschikt om een factcheck over te schrijven? Check, als je een zin hebt, of het algoritme van FactRank het met je eens is. Dit kan je doen door het hele fragment in te voeren in: https://factrank.org/tool.

🧰 Materiaal

⏱ Tijdsindicatie

45 minuten, waarvan:

  • 15 minuten voor het lezen van het verhaal
  • 15 minuten voor het maken van de opdracht​
  • 15 minuten om na te bespreken ​

Disclaimer.

De onderzoekers hebben geprobeerd alle informatie te verifiëren bij de betrokken media. Waar dit niet is gelukt, is ervoor gekozen om op basis van de beschikbare informatie een zo volledig mogelijk beeld te schetsen van de software die (zeer waarschijnlijk) gebruikt is. De onderzoekers zijn daarbij bijgestaan door AI-experts. Omdat de experts de genoemde AI-toepassingen in meer algemene termen duiden, bestaat de kans op onjuiste details of onvolledigheden. Mocht u deze aantreffen, neem dan gerust contact op.