Tegenwoordig is er soms eerder te veel dan te weinig informatie voorhanden. Hoe zorg je als journalist dan dat je door de bomen het bos blijft zien? En hoe baan je je een weg door grote hoeveelheden bestanden? Het International Consortium for Investigative Journalists besloot AI te gebruiken om 340.000 medische dossiers te doorzoeken.
📰 Het verhaal
Met medische hulpstukken kan van alles misgaan. Spiraaltjes die baarmoeders perforeren, lekkende implantaten, hartkastjes die een schok geven, kunstheupen die voor infecties zorgen. Het viel journalisten op dat de meeste verhalen over (soms levensgevaarlijke) problemen met medische hulpstukken over vrouwen gaan. Dit geldt ook voor hulpstukken die door mannen en vrouwen gebruikt kunnen worden.
De Amerikaanse Food and Drug Administration (FDA) verzamelt alle klachten en registreert daarbij of het om een man of vrouw gaat. Maar de organisatie houdt de informatie over het geslacht van de slachtoffers voor zichzelf, terwijl dit om veiligheidsredenen hoogst relevante publieke informatie is.
Daarom besloten journalisten van The International Consortium of Investigative Journalists (ICIJ) AI in te zetten om 340.000 medische dossiers te doorzoeken en te bepalen in hoeveel gevallen medische hulpstukken respectievelijk vrouwen en mannen in gevaar brachten. Want hoewel het geslacht niet expliciet genoemd wordt, is deze vaak te herleiden uit de woorden die in de context gebruikt worden – zij, haar, hij, zijn, hem, etc., maar ook woorden zoals baarmoeder of prostaat. Wat blijkt? 67% van de mensen die slachtoffer werden van medische hulpstukken, zijn vrouw. Volgens ICIJ zou de FDA dan ook meer moeten doen om het verschil in risico’s voor mannen en vrouwen te onderzoeken. Het hele verhaal lees je hier.
📈 De data
ICIJ onderzocht 340.000 medische dossiers van patiënten in de Verenigde Staten. In deze dossiers verraadt de tekst soms dat het om een man of vrouw gaat, maar wordt het geslacht van de patiënt niet expliciet genoemd.
🦾 De AI
Om de 340.000 dossiers te analyseren, werd de tool Snorkel gebruikt. Het proces ziet er als volgt uit:
1. Allereerst stellen mensen regels op waar het AI-model zich aan moet houden. Bijvoorbeeld:
‘Als het woord “haar” gebruikt wordt, gaat het om een vrouwelijke patiënt’
‘Als het woord “hij” gebruikt wordt, gaat het om een mannelijke patiënt’
2. Het AI-model gaat met deze regels aan de slag. Het neemt een klein, willekeurig deel van de dossiers door (duizend in dit geval) en bepaalt of het, volgens de regels die zijn opgesteld, om een mannelijke of vrouwelijke patiënt gaat, of dat het geslacht onbekend is.
3. Mensen classificeren dezelfde duizend dossiers zelf en kijken of (en waar) het AI-model tot dezelfde conclusies komt of verschilt met die van de menselijke classificaties. Waar nodig worden de regels aangescherpt of veranderd. Zo controleren mensen dus of het AI-model zijn werk goed doet.
Bij die controle bleek dat het model moeite had het geslacht correct te bepalen als er in het dossier meerdere mensen worden genoemd (bijvoorbeeld familieleden of andere gezondheidsmedewerkers). Het was dan niet altijd duidelijk of ‘hij’ of ‘zij’ betrekking had op de patiënt of op een andere betrokkene. Er werden aanvullende regels opgesteld om dit te corrigeren. Wat verder bleek, is dat er soms een mannelijk of vrouwelijk woord aan de medische hulpstukken wordt gehangen, terwijl dit niets zegt over het geslacht van de patiënt. Ook hiervoor werden aanvullende regels opgesteld.
4. Na het perfectioneren van de regels, kon het model worden losgelaten op alle 340.000 files. Het slaagde erin om voor 23% van de dossiers het geslacht van de patiënt te bepalen. Dat is geen slechte score, aangezien de dossiers zijn opgesteld met de bedoeling het geslacht niet te onthullen.
5. Tot slot voerden de journalisten nog een laatste check uit. Hiervoor selecteerden de journalisten steekproefsgewijs een aantal dossiers om te bekijken of het oordeel van het AI-model over het geslacht van de patiënt overeenkwam met het oordeel van de journalist. Op die manier werd een laatste menselijke check gedaan. Het model bleek het in 96% van de gevallen bij het juiste eind te hebben.
Over dit type AI
De AI die ICIJ gebruikte, is een voorbeeld van Rule-Based AI. Dat wil zeggen: mensen regels om geslacht te herkennen in de dossiers, en het systeem gebruikt die regels om dit vervolgens zelf te doen. Het systeem denkt dus niet zelf na, maar houdt zich simpelweg aan bepaalde regels. In dit geval kon zo’n regel zijn:
‘Als een gynaecologische klacht wordt genoemd, hang je het label “vrouw” aan het dossier’.
Wil je meer weten over Rule-Based AI? Hier leggen we het je nog eens rustig uit.
⚖️ Ethiek en betrouwbaarheid
Het grote voordeel van Rule-Based AI is dat het goed uitlegbaar en navolgbaar is. Mensen hebben de regels tenslotte bedacht, en niet de machine zelf (zoals bij machine learning het geval is). De transparantie van Rule-Based AI is in potentie dus hoog. ICIJ heeft bovendien de gehele codering openbaar gemaakt, waardoor niet alleen de journalisten zelf inzicht hebben in de werking ervan, maar het publiek ook.
Deze transparantie is ook nodig om de resultaten goed te kunnen duiden. In de regels waarop het model getraind is, worden namelijk aannames gedaan. Ze gaan er bijvoorbeeld vanuit dat een ‘husband’ per definitie de partner van een vrouw is. Dat idee is natuurlijk achterhaald, want twee mannen kunnen ook trouwen.
Ook wanneer iemand met zijn zoon of dochter komt, wordt ervan uitgegaan dat het een vrouw betreft. Uiteraard is ook dat kort door de bocht. Want waarom zou een man zijn kind niet mee kunnen nemen naar de dokter? Het is dan ook goed om in gedachten te houden dat de regels vooroordelen kunnen bevatten. We noemen dat ook wel bias. Het feit dat Rule-Based AI mensenwerk is, is daarom tegelijk een voordeel en een nadeel. Het zorgt voor transparantie en inzichtelijkheid, maar tegelijkertijd is er een risico op bias.
📚 Lesmateriaal
Opdracht: Dossiers doorzoeken: Jij bedenkt de regels
Verdeel de klas in groepjes van vier of vijf, en bespreek onderling onderstaande vragen:
1. De regels waarmee het model is getraind bevat een aantal aannames die tegenwoordig lang niet meer zo vanzelfsprekend zijn. Welke regels worden er genoemd in het verhaal om uit een geanonimiseerd document op te maken of het om een mannelijke of vrouwelijke patiënt gaat?
2. Welke regels zou je verder kunnen bedenken?
3. Hoe schrijf je die op zodat de computer deze ook kan begrijpen?
4. Welke fouten kunnen erin sluipen?
5. Hoe kun je daar rekening mee houden als redactie?
Verdeel de klas in groepjes van vier of vijf, en bespreek onderling onderstaande vragen:
Eén groepje presenteert de bevindingen, en sluit af met de regels die ze voorstellen voor het systeem.
Daarna is het tijd om de regels te testen.
Iedereen schrijft één alinea die uit een medisch dossier zou kunnen komen, waarbij je het geslacht van de patiënt in kwestie niet prijsgeeft. Je mag dingen bedenken om het het systeem moeilijk te maken, zolang het realistisch blijft.
Wissel je tekst uit met de persoon naast je, en test de regels die klassikaal zijn voorgesteld.
💭 Bespreking
Bespreek klassikaal:
- In hoeverre werken de regels?
- Tegen welke problemen liep je aan?
- Welke aanpassingen stel je voor om die problemen op te lossen?
🧰 Materiaal
- Laptops om het verhaal te lezen
- Eventueel posters en stiften als je kiest voor een posterpresentatie
⏱ Tijdsindicatie
80 minuten, waarvan:
- 10 minuten voor het lezen van het verhaal
- 30 minuten opstellen van regels
- 5 minuten presentatie van één groepje over de bedachte regels
- 10 minuten schrijven van medisch dossiertekst
- 15 minuten testen van de regels op medisch dossiertekst
- 10 minuten nabespreken