AI helpt geheimgehouden moorden opsporen in Mexico

📰 Het verhaal

Mexico is één van de gevaarlijkste en dodelijkste landen ter wereld om in de journalistiek te werken. Dat zorgt ervoor dat journalisten er soms voor kiezen om van bepaalde gebeurtenissen geen verslag te doen, zodat ze zelf minder gevaar lopen. Journalisten van het Mexicaanse dagblad El Universal vreesden dat hierdoor in bepaalde regio’s zelfs geen enkel nieuws naar buiten komt over dagelijks geweld, intimidatie, moord en bedreigingen. Ze besloten om, in samenwerking met Google News Initiatief, AI in te zetten om te onderzoeken waar de journalistiek stil blijft, om zo te ontdekken in hoeverre geweld en bedreigingen effect hebben op de persvrijheid in Mexico. Lees hier het hele verhaal.

📈 De data 

De journalisten van El Universal gebruiken twee soorten data:

1. De Mexicaanse, officiële overheidsrapporten over ruim 300.000 moorden per datum en per stad of gemeente.

2. Het nieuwsarchief van Google News, met een overzicht van lokale, regionale en nationale journalistieke berichtgeving over moorden in Mexico.

🦾 De AI 

Met behulp van een AI-model werden deze twee databronnen met elkaar vergeleken. Het uitgangspunt was dat er over iedere moordpartij minimaal één lokaal nieuwsbericht zou moeten zijn. Wanneer dat niet het geval was, werd aangenomen dat journalisten tot zwijgen zijn gebracht.

De onderzoekers hebben de data geanalyseerd met een methode die Entity Recognition  heet. Entiteiten zijn eenvoudig gezegd ‘dingen die bestaan’, die je kunt aanraken. Denk aan mensen, plaatsen en organisaties. Een Entity Recognition-model herkent dus een persoon, bedrijf of plek in tekst.

Het model dat El Universal gebruikte, combineert entity recognition met woordanalyse (‘moord’). Daarmee maakten de onderzoekers een overzicht van de moorden die vermeld zijn in de overheidsdata, plus de plaats waar de moord gepleegd werd. Ditzelfde deden de onderzoekers met de berichtgeving in de media. Ook hier verzamelden ze alle genoemde moordzaken, samen met de genoemde plaats delict en datum. Van iedere moord werd het eerst gepubliceerde artikel geselecteerd.

Vervolgens werden de genoemde moorden in de overheidsdata vergeleken met de genoemde moorden in de media. Daar waar een moord gemeld is door de overheid, maar niet door de media, gaan de onderzoekers ervan uit dat er journalisten monddood gemaakt zijn.

Tot slot maakten El Universal visualisaties, die laten zien hoe de afwezigheid van journalistieke berichtgeving over moorden zich op verschillende plekken door de tijd heen ontwikkelt. Het blijkt dat pieken en dalen in de rapportage over moord vaak samenhangen met bijvoorbeeld politieke ontwikkelingen, zoals het aantreden van een nieuwe burgemeester of gouverneur, of het overlijden van drugsdealers.

⚖️ Ethiek en betrouwbaarheid 

De waarde van resultaten die met behulp van AI zijn verkregen, is voor een belangrijk deel afhankelijk van de data waarmee het model werkt. In dit geval is een valkuil dat we niet weten of de de informatie waarop El Universal haar onderzoek baseert, compleet is. Dat geldt voor zowel de overheidsdata – wellicht worden er moorden achtergehouden – als voor het archief van Google News. Als een moord actief in de doofpot is gestopt, zal hij ook niet in de statistieken terechtkomen.

Een andere vraag die belangrijk is om te stellen, is hoe het model omgaat met dubbelingen. Heeft het model door wanneer twee verhalen over dezelfde moorden gaan en wanneer niet? En hoe accuraat is die inschatting?

Verder wordt de aanname gedaan dat journalisten monddood worden gemaakt wanneer er over een moordpartij geen verslag wordt gedaan. Deze aanname is niet gecheckt bij de journalisten zelf. El Universal geeft aan dat het goed zou zijn om dit in een vervolgonderzoek te doen naar de beweegredenen van journalisten.

Hoe het ook zij, een dergelijk grootschalig onderzoek (waarin ruim 300.000 moorden werden onderzocht), was zonder behulp van AI vrijwel onmogelijk geweest voor een dagblad.

📚 Lesmateriaal

💡 Leerdoel: Je ontdekt hoe je data kunt inzetten om verhalen te maken en je leert kritische vragen stellen over de werking van AI en de impact ervan op de maatschappij

Het verhaal over moorden in Mexico laat zien hoe je met door AI verkregen data een verhaal kunt maken. Voor deze opdracht ga je dat zelf doen.

Data kun je op allerlei plekken vinden. In overheidsdocumenten of journalistieke verslaggeving (zoals in het voorbeeld), maar ook op bijvoorbeeld Tiktok. Voor deze opdracht ga je daarmee werken.

Je doet voor een journalistiek stuk (equivalent van 800 woorden / 150 seconden video) onderzoek naar de manier waarop aanstaande verkiezingen (denk gemeenteraad, landelijk of Europees) leven onder first-time stemmers in Nederland.

Als onderdeel van je journalistieke werk raadpleeg je ook TikTok. Wanneer je start bij de For You-video’s, je de *Analytics-*pagina bezoekt van TikTok en op een paar hashtags hebt geklikt, word je maar een klein beetje wijzer…

Vanwege tijdgebrek kun je ook niet elke video, alle hashtags en comments helemaal bekijken en lezen. Daarbij moet je je zoekproces en de inhoud die je tegenkomt systematisch opslaan, liefst in een spreadsheet.

Hoe ga je dit nu aanpakken?

Noteer, in tweetallen, het volgende.

1. Onderzoek – Bedenk wat je wil onderzoeken. Kies een thema, en formuleer daarbij een wie, wat, waar, waarom, wanneer en hoe-vraag. Bijvoorbeeld:

De meest actuele verkiezingen in Nederland

  • Hoe spreken TikTok-gebruikers over [kandidaat x]?
  • Wanneer worden de meeste posts over [partij x] en [partij y] geplaatst?
  • Wie zijn er actief in de discussie?
  • Welke onderwerpen leveren veel likes of comment op?
  • Welke sentimenten uiten TikTok-gebruikers over [kandidaat x]?

2. Data –  Kies één van de vragen die je geformuleerd hebt en bedenk welke data je op TikTok kunt vinden om deze vraag te beantwoorden.

3. Aanpak – Beschrijf hoe je aan deze data wil komen. Je hoeft hiervoor geen verstand te hebben van AI. Gebruik je common sense.Welke gegevens zijn er op TikTok beschikbaar die je helpen om je vraag te beantwoorden? Op welke manier zou een AI-systeem je hierbij kunnen leren? Welke keuzes zou je moeten maken om het AI-systeem aan het werk te zetten? (bijv. op welke hashtags, zoekwoorden of personen zoek je?)

4. (Let op: deze stap is optioneel, bedoeld voor de student die al iets meer van AI weet) Gebruik van AI – Leg uit hoe je de verkregen data gaat verwerken aan de hand van AI:

Met welk type Machine Learning-probleem heb je hier te maken?

Welk ML-oplossingen (en bestaande programma’s) helpen om je vragen te beantwoorden?

5.Verantwoording – Wat moet je vermelden in de verantwoording over je aanpak? Wat moeten jouw lezers, kijkers of luisteraars weten over de manier waarop je je data hebt verzameld en verwerkt? Waarom is dat belangrijk?

6. Award – Wat hoop je dat er in het juryrapport staat als je hiermee die Tegel wint?

💭 Bespreking

Het belangrijkste bij deze oefening is niet dat studenten een waterdichte aanpak voor dataverzameling op TikTok kunnen bedenken. Belangrijker is dat ze zich bewust worden van de keuzes die je moet maken wanneer je een AI-systeem gebruikt om data te verzamelen of verwerken, en op welke manieren deze keuzes hun uitkomsten kunnen beïnvloeden.

Bovendien is het belangrijk dat ze inzien dat ze de gebruiker transparantie moeten bieden over de gemaakte keuzes. Dat de keuzes die je als journalist maakt, invloed hebben op het eindproduct, is niet nieuw. Dat is bij een vox-pop of interview net zo. Maar omdat het hier gaat om een nieuwe vorm van informatieverzameling is transparantie extra belangrijk.

Maar studenten moeten er bewust van zijn dat het gebruik van AI voor dataverzameling de suggestie kan wekken dat de inzichten volledig en objectief zijn. Dit is uiteraard niet het geval. Hoe bepaal je bijvoorbeeld welke berichten of welke afzenders wel en niet relevant zijn? Welke hashtags of zoektermen gebruik je? Hoe baken je de periode af waarin de berichten die je gebruikt, geplaatst zijn? Wanneer heb je genoeg materiaal verzameld en hoe bepaal je dat? Hoe weet je dat je niks belangrijks mist? En welke berichten zijn niet op TikTtok te vinden, omdat het platform ze verwijderd heeft? Welke informatie loop je daardoor mogelijk mis? Wanneer je een AI-systeem inzet, moet je keuzes maken. En die keuzes zijn (mede)bepalend voor je resultaten.

🧰 Materiaal

Geen TikTokaccount nodig, app hoeft niet geïnstalleerd te zijn op telefoon
url: https://ads.tiktok.com/business/creativecenter/inspiration/popular/hashtag/pc/en

⏱ Tijdsindicatie

90 minuten totaal, te verdelen in:

  • 10 minuten overleg
  • 20 minuten browsen op Tiktok: For You en Analytics
  • 30 minuten aanpak schrijven en ML-tools inventariseren
  • 30 minuten klassikaal bespreken

Disclaimer.

De onderzoekers hebben geprobeerd alle informatie te verifiëren bij de betrokken media. Waar dit niet is gelukt, is ervoor gekozen om op basis van de beschikbare informatie een zo volledig mogelijk beeld te schetsen van de software die (zeer waarschijnlijk) gebruikt is. De onderzoekers zijn daarbij bijgestaan door AI-experts. Omdat de experts de genoemde AI-toepassingen in meer algemene termen duiden, bestaat de kans op onjuiste details of onvolledigheden. Mocht u deze aantreffen, neem dan gerust contact op.