Robot waarschuwt Dagens Nyheter als er te veel mannen worden geciteerd

Een vaak gehoorde zorg is dat algoritmes vooroordelen kunnen versterken. Het Zweedse dagblad Dagens Nyheter zet AI juist in om journalisten bewust te maken van vooroordelen in hun manier van werken. Hoe werkt dat?

📰 Het verhaal

De redacteuren van het Zweedse dagblad Dagens Nyheter ontvangen maandelijks een e-mail van hun collega de Genderrobot. De inhoud van die mail? Een overzicht van het aantal mannen en vrouwen dat iedere redacteur die maand heeft genoemd en getoond in zijn stukken.

Dat is een belangrijk inzicht, vindt chef Ontwikkeling Martin Jönsson. “De genderverdeling onder onze lezers is 50-50, net als bij de bevolking. Dan is het goed om na te denken waarom van de vermeldingen in onze krant ongeveer 35% vrouw is, en 65% man, en wat je daaraan zou moeten en kunnen doen om een ​​afspiegeling te zijn van de samenleving.”

📈 De data

De publicaties van de Dagens Nyheter vormen data die door de tool worden geanalyseerd.

🦾 De AI

Hoe dan? Vermoedelijk* zoekt de tool van Dagens Nyheter in de artikelen naar persoonlijk voornaamwoorden (hij, zij, hen), bezittelijk voornaamwoorden (zijn, haar, hun), en namen van personen. Vervolgens moet het model kunnen bepalen welke van die woorden een man aanduiden en welke een vrouw.

Dat doet het model vermoedelijk door bepaalde regels op te volgen die door mensen zijn ingesteld.

De regel: ‘Het woord ‘hij’ verwijst naar een man’, is voor de hand liggend.

Maar het model moet ook begrijpen of een citaat van de man in kwestie afkomstig is.

Daarom zou een regel kunnen zijn: ‘Een citaat na de woorden “hij zegt” komt van een man’. Dit citaat zal gelabeld worden als afkomstig van een man.

Een andere regel zou kunnen zijn: ‘Als de naam Sarah na een quote genoemd wordt, betreft het een citaat van een vrouw – Maar als de naam Sarah in een quote genoemd wordt, betreft het niet per se een citaat van een vrouw’.

Dit type automatisering noemen we rule-based, ofwel gebaseerd op regels. Mensen stellen regels op, die het model simpelweg opvolgt. Dat is anders dan bij Machine Learning, waar je een AI-model data aanbiedt (in dit geval zouden dat de artikelen van Dagens Nyheter zijn), zodat het zelf regels en patronen kan gaan ontdekken. In dat geval gaat het model dus zelf ‘denken’. Bij rule-based AI is dat niet zo. Er zitten mensen aan het stuur, die de regels bepalen. Zodra die regels zijn opgesteld, kan het model aan het werk, en zo voor alle artikelen bepalen hoe de man-vrouwverhouding van de citaten is.

⚖️ Ethiek en betrouwbaarheid

Belangrijk om te weten, is dat de regels die het model opvolgt meerdere keren worden aangescherpt. Vaak komen de makers er gaandeweg achter dat bepaalde regels toch niet duidelijk genoeg zijn. Snapt het model bijvoorbeeld dat de naam Sam vaak bij een man hoort, maar dat het ook een vrouw kan zijn?

Hoe goed het model werkt, hangt dus onder andere af van hoe goed het getest en aangescherpt is. Daarover biedt Dagens Nyheter geen duidelijkheid. Bij AI-vormen als deze is het daarom als buitenstaander lastig na te gaan wat er precies achter de schermen gebeurt. Omdat er geen transparantie is over de regels of over de werking van de tool, is niet in te schatten in hoeverre de tool correct is. Zit de machine er vaak naast of valt dat mee? En wat voor foute inschattingen maakt hij zoal? Kan hij goed inschatten welke Sam een man is en welke juist een vrouw? En kan hij dit ook bij onbekende namen?

Een ander aandachtspunt is dat de tool alleen onderscheid maakt tussen mannen en vrouwen. Hoe zit het met mensen die zich niet in onder één van deze categorieën scharen?

* Disclaimer: De makers van deze website hebben hierover geen contact kunnen hebben met Dagens Nyheter. De uitleg van de werking van de tool is daarom afkomstig van een AI-expert die niet specifiek betrokken is geweest bij de ontwikkeling van deze tool.

📚 Lesmateriaal

💡 Leerdoel: Je leert zelf data labelen en wordt je bewust van de subjectiviteit van labeling

Maak groepjes van vier of vijf, en bespreek onderling onderstaande vragen. Verwerk je antwoorden op een poster.

  • Denk je dat een vergelijkbaar algoritme zou kunnen worden gebruikt om etnische diversiteit te monitoren?
  • Welke voordelen zie je van het monitoren van etnische diversiteit op die manier?
  • En welke risico’s of nadelen?
  • Uit welke regels zou het algoritme moeten bestaan om goed te kunnen werken?
  • Zou je dit wenselijk vinden of niet? Waarom?

Als de posters af zijn, geeft ieder groepje een presentatie van maximaal vijf minuten waarin ze de vragen beantwoorden.

💭 Bespreking

Bespreek met elkaar: Welke verschillen zaten er tussen de bevindingen? Zijn er groepjes die hun mening willen bijstellen op basis van de presentaties van de anderen?

🧰 Materiaal

⏱ Tijdsindicatie

Vanaf 60 minuten, waarvan:

  • 5 minuten voor het lezen van het verhaal
  • 20 minuten voor het maken van de poster
  • 20 minuten voor de presentaties
  • 15 minuten voor de nabespreking

Disclaimer.

De onderzoekers hebben geprobeerd alle informatie te verifiëren bij de betrokken media. Waar dit niet is gelukt, is ervoor gekozen om op basis van de beschikbare informatie een zo volledig mogelijk beeld te schetsen van de software die (zeer waarschijnlijk) gebruikt is. De onderzoekers zijn daarbij bijgestaan door AI-experts. Omdat de experts de genoemde AI-toepassingen in meer algemene termen duiden, bestaat de kans op onjuiste details of onvolledigheden. Mocht u deze aantreffen, neem dan gerust contact op.