Tegenlicht bedacht een slim archief op basis van AI

Stel, je zoekt als journalist beeld over de Israëlische minister-president Benjamin Netanyahu. Waar begin je dan? Alleen op YouTube staan al vijf miljard video’s. Je ziet door de bomen het bos niet meer. VPRO Tegenlicht bedacht iets om videocontent makkelijker vindbaar te maken: Het Archief van de Toekomst

Het verhaal

VPRO Tegenlicht heeft sinds 2002 al meer dan vijfhonderd televisie-uitzendingen gemaakt. Dat zijn vele uren aan beeldmateriaal. Zoveel, dat het behoorlijk onoverzichtelijk werd. Het Archief van de Toekomst biedt een oplossing. Het maakt gebruik van kunstmatige intelligentie om het archief makkelijker doorzoekbaar te maken.

Dankzij algoritmes voor beeldherkenning en spraak- en tekstanalyse kun je een archief met alle uitzendingen doorzoeken op basis van uitspraken, fragmenten of beelden. Zo kun je op ‘Trump’ zoeken en krijg je een overzicht, gesorteerd op jaar, van alle fragmenten waarin Donald Trump is genoemd of beelden van Trump zijn gebruikt.

Hoe helpt mij dit als journalist?
Je hoeft niet langer scrollend uitzending na uitzending te doorlopen, zoekend naar dat ene moment dat je toch echt pas geleden bij Tegenlicht hebt gezien. Dankzij het Archief van de Toekomst kun je nu trefwoorden intypen waarmee AI de juiste fragmenten voor je selecteert. Maar hoe werkt dat dan?

Laten we allereerst eens kijken naar de gebruikte data.

De data

Elke uitzending van VPRO Tegenlicht kun je als data beschouwen: ze bestaan uit fragmenten die nuttig kunnen zijn voor journalisten. Daarnaast bevat iedere uitzending ‘metadata’: dat is informatie óver de uitzending. In die metadata staat een korte beschrijving van de inhoud zoals je die vroeger in televisiegidsen tegenkwam, maar ook de lengte van de aflevering, wie de maker is, wie er verder aan meegewerkt hebben, de uitzenddatum en meer van dit soort zaken. Naast de primaire data (de aflevering) en de metadata is er een derde databron: de ondertiteling. Die wordt bij de publieke omroepen standaard aan elk programma toegevoegd. Hierdoor kan het AI-systeem ook met tekst werken.

De AI

Het digitale archief van de VPRO gebruikt drie vormen van kunstmatige intelligentie om de uitzendingen doorzoekbaar te maken: beeldherkenning, tekstherkenning en onderwerp-modellering (‘topic modeling’). Schrik niet van deze terminologie. We leggen het je stap voor stap uit.

Beeldherkenning
Met beeldherkenning (ook wel ‘computer vision’, vaak afgekort als CV) worden personen en plekken in de uitzendingen herkend. Het is een optie die je misschien ook wel gebruikt in de foto-app op je smartphone. Deze herkent automatisch een vriend of familielid op foto’s wanneer je die persoon op eerdere foto’s een naam hebt gegeven. (Je hebt daarmee een AI-systeem getraind!).

Naast het herkennen van gezichten in afbeeldingen kun je met beeldherkenning ook objecten automatisch herkennen, zoals auto’s, koffiebekers, gebouwen of pleinen. Denk aan de Martinitoren, De Kuip, het Vrijthof of het Vrijheidsbeeld in New York. Dankzij beeldherkenning kan het Archief van de Toekomst jou de fragmenten geven die passen bij je zoekterm.

Tekstherkenning
Naast het herkennen van personen en objecten in beeld, gebruikt het Archief van de Toekomst ook entiteitsherkenning in tekst. Simpel gezegd zijn entiteiten ‘dingen die bestaan’, zoals personen, organisaties en locaties. Gaat een Tegenlicht-uitzending over Dilan Yeşilgöz-Zegerius, de Dienst Uitvoering Onderwijs of de snelweg A27 bij Utrecht, dan herkent deze vorm van AI al die entiteiten automatisch in de tekst. Handig als je daar als journalist naar op zoek bent. Deze vorm van AI moet binnen het Tegenlicht-archief teksten, zoals die van pratende mensen en voice-overs, herkennen en begrijpen.

Vaak zijn entiteitsherkenners getraind met data van Wikipedia. Je mag er daarom gemakshalve van uitgaan dat wanneer iets of iemand een eigen pagina heeft op Wikipedia, deze ook als entiteit herkend wordt door AI.

Transcriptie
Om teksten in videofragmenten te kunnen analyseren, kunnen de makers ervoor kiezen om een transcriptietool in te zetten. Deze kan spraak omzetten in tekst. Misschien heb je zelf wel eens met zo’n tool gewerkt om een audio-opname van een interview uit te werken?

Onderwerp-modellering
Om het archief nog beter te kunnen doorzoeken, is tot slot topic modeling toegepast. Dit is een vorm van tekstanalyse door AI die helpt om informatie uit verschillende bronnen aan elkaar te verbinden. Denk hierbij aan het herkennen van namen van verschillende CEO’s van Shell die vervolgens gekoppeld worden aan directeuren van multinationals in andere uitzendingen uit het archief. Met topic modeling breng je verwante onderwerpen of trefwoorden tussen of binnen uitzendingen in kaart.

Topic modeling is een AI-vorm die Unsupervised Machine Learning wordt genoemd. Dat betekent dat je het systeem niet vooraf traint, door het voorbeelden en labels aan te reiken, (bijvoorbeeld ‘op deze foto staat een hond’ en ‘op deze foto staat een kat’, en ‘allebei zijn huisdieren’). Bij deze vorm leert het systeem zelf welke voorbeelden en labels bij elkaar horen. Om bij het voorbeeld van honden en katten te blijven: bij unsupervised learning zou je het systeem tienduizenden foto’s van honden en katten aanreiken, zonder daarbij te vermelden op welke foto het om een hond gaat en op welke foto je een kat ziet. Het systeem gaat zelf op zoek naar patronen in de foto’s, net zo lang tot het zelf in staat is om honden van katten te onderscheiden.

Topic Modelling werkt net zo. De makers vertellen het systeem niet welke onderwerpen met elkaar te maken hebben, maar laten het systeem zelf op zoek gaan naar patronen in uitspraken, titels, voice-overs, etc.

De makers van het Archief van de Toekomst, Geert-Jan Strengholt en Geert Rozinga, over de totstandkoming van het archief.

Ethiek en betrouwbaarheid

Hoewel een makkelijk doorzoekbaar archief als het Archief van de Toekomst de journalist tijd en moeite kan besparen, kan het er ook voor zorgen dat je bijna té eenvoudig het fragment vindt dat je zoekt. Zoek je naar een positieve uitspraak over Mark Rutte en kom je in je research ook veel negatieve uitspraken tegen (of andersom), dan kan dit je journalistieke kompas triggeren. Misschien besluit je dan om een verhaal toch een andere insteek te geven dan je vooraf had gedacht. Wanneer je echter heel gericht op bepaalde fragmenten zoekt, ontbreken er misschien belangrijke onderdelen in het zoek- en denkproces. Je moet moet je er als journalist van bewust zijn dat je misschien oogkleppen op hebt wanneer je zoekresultaten heel specifiek zijn. Je kunt dit risico verminderen door een variatie aan zoektermen te gebruiken.

Lesmaterialen

3D illustration, retro style microphone in party or concert on pink background

Train je eigen spraakherkenning

Machine Learning kwartet

Disclaimer. De onderzoekers hebben geprobeerd alle informatie te verifiëren bij de betrokken media. Waar dit niet is gelukt, is ervoor gekozen om op basis van de beschikbare informatie een zo volledig mogelijk beeld te schetsen van de software die (zeer waarschijnlijk) gebruikt is. De onderzoekers zijn daarbij bijgestaan door AI-experts. Omdat de experts de genoemde AI-toepassingen in meer algemene termen duiden, bestaat de kans op onjuiste details of onvolledigheden. Mocht u deze aantreffen, neem dan gerust contact op.