Dankzij AI doet het publiek onderzoek voor de NRC

Het verhaal

‘Wat gebeurt er in tuinen in Nederland wanneer je een leeg stukje van de tuin een jaar lang niet aanraakt?’, vroeg NRC zich af.

Om die vraag te beantwoorden riep de redactie, in samenwerking met Tilburg Universiteit, haar lezers op om mee te helpen. 8500 tuin- en balkoneigenaren door heel Nederland lieten een jaar lang een vierkante meter grond verwilderen. De deelnemers maakten foto’s van het leven dat hier ontstond. Het AI-systeem Obsidentify, van waarneming.nl, herkende planten, insecten en dieren. De meest opvallende verschenen ieder uur online.

De data

Op de website van het Wilde Tuin-onderzoek stond op Dag 269 van het project:

‘Tot nu toe hurkten 1.212 deelnemers met de app bij hun vierkant neer om wat er rondkruipt en bloeit te fotograferen. Samen legden zij 41.851 keer een plant of dier in hun tuin vast. De meesten van hen maakten één tot tien foto’s. Een groot deel van de foto’s werd door een kleine groep wilde-tuineigenaren gemaakt: vijf procent van de deelnemers namen samen de helft van de foto’s.’

Dit alles levert de data voor het AI-systeem op.

De AI

Alle data kwamen dus van tuin- en balkoneigenaren, die plant, bloem, dier, insect of paddestoel op de foto zetten. Om die foto’s te analyseren, werkte NRC samen met de app Obsidentify van waarneming.nl. Deze app herkent soorten op foto’s. Obsidentify gebruikt acht verschillende Machine Learning modellen om de meer dan 25.000 soorten te herkennen. Dat is te veel om hier allemaal uit te leggen.

Wat belangrijk is om te weten, is dat Obsidentify gebruikmaakt van beeldherkenning, ook wel Computer Vision genoemd, vaak afgekort tot CV. Daarmee worden objecten, mensen of in dit geval planten en dieren op beeld herkend. Het is een optie die je misschien ook wel gebruikt binnen de foto-app op je smartphone. Deze herkent automatisch een vriend of familielid op foto’s wanneer je die persoon op eerdere foto’s een naam hebt gegeven. (Je hebt daarmee een AI-systeem getraind!).

CV-modellen kunnen op drie manieren getraind worden:

Supervised: mensen bieden het systeem voorbeeldfoto’s aan met daarbij de juiste labels (bijvoorbeeld foto’s van paardenbloemen, egels, pissenbedden of vlinderstruiken, met daarbij de vermelding om welke soort bloem, dier, insect of plant het gaat).
Unsupervised: mensen bieden het systeem alleen voorbeeldfoto’s aan zonder labels (dus foto’s van allerlei soorten leven in de tuin, zonder vermelding van de naam ervan). Het systeem leert in dit geval niet van de labels die mensen doorgeven, maar gaat zelf op de foto’s op zoek naar patronen. Dit gebeurt maar zelden.
Reinforced: In dat geval geven mensen het systeem feedback, zodat het zich kan verbeteren. Ziet het systeem een kat aan voor een egel? In sommige gevallen kun je als mens dan aangeven dat dit niet klopt. Als het model die informatie gebruikt om zichzelf te verbeteren, spreek je van Reinforcement Learning.

Ethiek en betrouwbaarheid

Het project van NRC is een praktijkvoorbeeld van een samenwerking tussen journalisten, academische onderzoekers, een technologie-provider (waarneming.nl) én het publiek.

Als redactie ga je uiteraard niet zomaar in zee met een (technologie)partner. Het is belangrijk om hiervoor van tevoren een samenwerkingsprotocol te hebben. Je moet opereren binnen de huidige AVG-wetten (Wat doe je met gebruikersdata? Wat deel je wel en niet? Hoe sla je data op?), maar het is als redactie ook slim om een aantal regels te hebben die helpen bij het kiezen van de juiste externe partner.

Zo kun je eisen dat de partner zich committeert aan de journalistieke codes. Of je kunt afspreken dat een engineer of ontwikkelpartij eerlijk inschat of je voor je AI-projectidee genoeg representatieve data ter beschikking hebt om tot een goed werkend model te komen. Als je te weinig data of te eenzijdige data hebt, kan het model immers niet goed werken. Om het bij het voorbeeld van NRC te blijven: stel dat je alleen maar foto’s van paardenbloemen tot je beschikking hebt, dan kan het model nooit leren om ook andere soorten planten te herkennen. Dit voorbeeld is natuurlijk overdreven, maar het geeft het belang aan van voldoende data, die ook nog eens divers moeten zijn. Als je samenwerkt met een AI-partner is het belangrijk dat deze je hierover eerlijk kan adviseren.

Lesmaterialen

Tuinen en cappuccino's: dataverzamelen met AI

Disclaimer. De onderzoekers hebben geprobeerd alle informatie te verifiëren bij de betrokken media. Waar dit niet is gelukt, is ervoor gekozen om op basis van de beschikbare informatie een zo volledig mogelijk beeld te schetsen van de software die (zeer waarschijnlijk) gebruikt is. De onderzoekers zijn daarbij bijgestaan door AI-experts. Omdat de experts de genoemde AI-toepassingen in meer algemene termen duiden, bestaat de kans op onjuiste details of onvolledigheden. Mocht u deze aantreffen, neem dan gerust contact op.