ik wil…    ai begrijpen     journalistieke voorbeelden      lesmateriaal     zoeken

NRC ontdekte met behulp van AI dat Vitesse vanuit Rusland wordt gefinancierd

Het verhaal

De Champions League in het stadion van Vitesse. Dat spiegelde Merab Jordania de fans van de Arnhemse voetbalclub voor in augustus 2010. Jordania is een vriend van Roman Abramovitsj, de Russische eigenaar van topclub Chelsea.

Al sinds de aanstelling van Jordania zijn er daarom speculaties over vermeende banden tussen Vitesse en Abramovitsj. De KNVB onderzocht het meerdere keren, maar herhaaldelijk vonden zij geen band tussen beide clubs. Tót NRC Handelsblad in november 2023 publiceert dat Abramovitsj wel degelijk banden had met Vitesse. Dat blijkt uit inzage in onder andere facturen. De Russische zakenman beschouwde Vitesse als zijn club, stellen journalisten Karlijn Kuijpers en Tom Kreling. Abramovitsj betaalde een vorige eigenaar van Vitesse én heeft nauwe financiële banden met de huidige eigenaar, Valeriy Oyf. Dit werd altijd ontkend en achtergehouden voor de KNVB.

Deze onthullingen komen naar boven dankzij Cyprus Confidential, een onderzoeksproject van het International Consortium of Investigative Journalists, waaraan 270 journalisten van 69 mediaorganisaties in 54 landen en één gebied acht maanden werkten. Kuijpers en Kreling ontdekken dat de betrokkenheid van Abramovitsj veel groter is dan gedacht, net als de financiële banden tussen de voormalige eigenaren en de huidige eigenaar van Vitesse.

Lees het hele verhaal hier.

De data

Het onderzoek van de ICIJ gebruikt voornamelijk gelekte documenten: 3,6 miljoen in totaal uit zeven afzonderlijke lekken. De documenten komen voornamelijk van Cypriotische bedrijven.

De documenten zijn verkregen via journalistieke organisaties die gespecialiseerd zijn in gelekte documenten en informatie van klokkenluiders (bijvoorbeeld Distributed Denial of Secrets, Organized Crime and Corruption Reporting Project en Paper Trail Media). Deze organisaties deelden de gelekte dossiers met het ICIJ: facturen, contracten en documenten met details over onroerend-goedinvesteringen. Het ICIJ structureerde de documenten, sloeg ze op en vertaalde ze naar verschillende talen, voordat ze werden gedeeld met aangesloten journalistieke organisaties als NRC Handelsblad. ICIJ gebruikt daarvoor haar eigen beveiligde tool: Datashare.  

De AI

Het programma Datashare is ontwikkeld door het ICIJ en geeft journalisten de mogelijkheid om pdf’s, afbeeldingen, teksten, spreadsheets en dia’s tegelijkertijd te doorzoeken. Hierbij gebruikt het systeem een bestaande AI-techniek die Named Entity Recognition heet.

Named Entity recognition (NER)

Een named entity is de naam van een individu, een organisatie of een locatie. En Named Entity Recognition is een vorm van Machine Learning waarbij entiteiten (personen, bedrijven, plaatsen, etc.) herkend worden in een stuk tekst, beeld of audio, en daarmee onderscheiden worden van andere woorden.

De kern van elk NER-model bestaat uit twee stappen:

  1. Allereerst moet het model een woord of reeks woorden herkennen, die samen een entiteit vormen. Bijvoorbeeld ‘Pieter Omtzigt’, ‘de Domtoren’ of ‘BNNVARA’.
  2. Ten tweede moet het model de entiteit categoriseren.

Wanneer je met een eigen dataset en model werkt moet je eerst aangeven welke entiteiten je wil vinden. Dan kun je de teksten in je trainingsdataset gaan labelen. Dat wil zeggen dat je een groot aantal documenten (bijv. PDF’s, dia’s, afbeeldingen, spreadsheets) gaat bekijken, en daarin aangeeft waar jouw entiteit genoemd wordt. Dat is belangrijk, want stel dat je iets wil weten over Mark Rutte, dan moet je het model leren dat hij alle (mogelijke) varianten herkent. Van ‘Rutte’ tot ‘M. Rutte’ tot ‘demissionair minister-president’.

Wanneer je klaar bent met labelen, kan het model jouw entiteit(en) zelf gaan zoeken.

In Datashare zijn al enkele bekende NER-modellen voorgeselecteerd (CoreNLP, OpenNLP en IxaPipe). Bij het instellen van het programma kies je het model van jouw voorkeur. Hierbij is het belangrijk dat je een model kiest dat de talen van jouw data kan verwerken. CoreNLP ondersteunt bijvoorbeeld momenteel acht talen: Arabisch, Chinees, Engels, Frans, Duits, Hongaars, Italiaans en Spaans. Andere modellen als Spacy of NLTK kunnen bijvoorbeeld het Nederlands verwerken, maar wees je bewust dat NER-modellen slecht zijn in relatief kleine talen zoals Nederlands. Dit is een bekend aandachtspunt voor Nederlandse journalisten.

Ethiek en betrouwbaarheid

Tools als Google Pinpoint baseren de Named Entity Recogntion op entiteiten die bekend zijn bij Google. In Pinpoint kunnen datasets beschikbaar gemaakt worden voor andere redacties, waardoor je kunt neuzen in data van onder meer The New York Times, Associated Press en Reuters. Het nadeel van het openbaar maken van onderzoeksdata, is dat het de veiligheid van onderzoeksjournalisten in gevaar kan brengen.

Datashare kan veel van de dingen die een tool als Google Pinpoint ook kan, maar dan zonder dat je afhankelijk bent van een grote commerciële partij als Google. De AI wordt volgens dezelfde principes toegepast, maar de  privacy van Datashare is anders ingericht. De bestanden binnen Datashare worden namelijk op eigen servers opgeslagen en niet in een cloud. Je installeert Datashare zelf op je computer of eigen server. Dit minimaliseert het gevaar dat bestanden worden gehackt en in verkeerde handen vallen.

Karlijn Kuijpers over Datashare: ‘Zonder AI geen Panama Papers’
Tools als Datashare en de AI erachter, maken onderzoeksjournalistieke projecten als de Cyprus Confidential mogelijk, stelt NRC-journalist en ICIJ-lid Karlijn Kuijpers. “Zonder dit systeem waren er ook geen Panama Papers geweest. Het belangrijkste voor ons werk is dat de documenten en projecten geheim blijven. Sommige van de journalisten van Cyprus Confidential komen uit landen waar het voor journalisten heel onveilig is. Er zijn vaak projecten die grote risico’s voor journalisten met zich meebrengen, omdat ze zaken als corruptie en belastingontduiking blootleggen.”

Om in te loggen in Datashare moet Kuijpers verschillende veiligheidsprocedures volgen, zoals Multiple Factor Autentication (MFA). “Ik zet op die manier wat extra stappen, zodat het ook veilig is voor collega’s met minder persvrijheid. Wij willen hen niet in gevaar brengen.”

De AI in Datashare is het begin van het onderzoekswerk en maakt het mogelijk om (organisatie)namen te identificeren en patronen te zien in terabytes aan documenten. Maar daarna begint het onderzoeksjournalistieke werk pas echt, stelt Kuijpers. “Zeker bij de verhalen rond Roman Abramovitsj. Datashare heeft geholpen om die documenten te vinden, maar voor publicatie hebben wij elk document alsnog zelf bestudeerd.” De AI is een hulpmiddel, maar de mens voert de regie.

Disclaimer. De onderzoekers hebben geprobeerd alle informatie te verifiëren bij de betrokken media. Waar dit niet is gelukt, is ervoor gekozen om op basis van de beschikbare informatie een zo volledig mogelijk beeld te schetsen van de software die (zeer waarschijnlijk) gebruikt is. De onderzoekers zijn daarbij bijgestaan door AI-experts. Omdat de experts de genoemde AI-toepassingen in meer algemene termen duiden, bestaat de kans op onjuiste details of onvolledigheden. Mocht u deze aantreffen, neem dan gerust contact op.