De AI
Het digitale archief van de VPRO gebruikt drie vormen van kunstmatige intelligentie om de uitzendingen doorzoekbaar te maken: beeldherkenning, tekstherkenning en onderwerp-modellering (‘topic modeling’). Schrik niet van deze terminologie. We leggen het je stap voor stap uit.
Beeldherkenning
Met beeldherkenning (ook wel ‘computer vision’, vaak afgekort als CV) worden personen en plekken in de uitzendingen herkend. Het is een optie die je misschien ook wel gebruikt in de foto-app op je smartphone. Deze herkent automatisch een vriend of familielid op foto’s wanneer je die persoon op eerdere foto’s een naam hebt gegeven. (Je hebt daarmee een AI-systeem getraind!).
Naast het herkennen van gezichten in afbeeldingen kun je met beeldherkenning ook objecten automatisch herkennen, zoals auto’s, koffiebekers, gebouwen of pleinen. Denk aan de Martinitoren, De Kuip, het Vrijthof of het Vrijheidsbeeld in New York. Dankzij beeldherkenning kan het Archief van de Toekomst jou de fragmenten geven die passen bij je zoekterm.
Tekstherkenning
Naast het herkennen van personen en objecten in beeld, gebruikt het Archief van de Toekomst ook entiteitsherkenning in tekst. Simpel gezegd zijn entiteiten ‘dingen die bestaan’, zoals personen, organisaties en locaties. Gaat een Tegenlicht-uitzending over Dilan Yeşilgöz-Zegerius, de Dienst Uitvoering Onderwijs of de snelweg A27 bij Utrecht, dan herkent deze vorm van AI al die entiteiten automatisch in de tekst. Handig als je daar als journalist naar op zoek bent. Deze vorm van AI moet binnen het Tegenlicht-archief teksten, zoals die van pratende mensen en voice-overs, herkennen en begrijpen.
Vaak zijn entiteitsherkenners getraind met data van Wikipedia. Je mag er daarom gemakshalve van uitgaan dat wanneer iets of iemand een eigen pagina heeft op Wikipedia, deze ook als entiteit herkend wordt door AI.
Transcriptie
Om teksten in videofragmenten te kunnen analyseren, kunnen de makers ervoor kiezen om een transcriptietool in te zetten. Deze kan spraak omzetten in tekst. Misschien heb je zelf wel eens met zo’n tool gewerkt om een audio-opname van een interview uit te werken?
Onderwerp-modellering
Om het archief nog beter te kunnen doorzoeken, is tot slot topic modeling toegepast. Dit is een vorm van tekstanalyse door AI die helpt om informatie uit verschillende bronnen aan elkaar te verbinden. Denk hierbij aan het herkennen van namen van verschillende CEO’s van Shell die vervolgens gekoppeld worden aan directeuren van multinationals in andere uitzendingen uit het archief. Met topic modeling breng je verwante onderwerpen of trefwoorden tussen of binnen uitzendingen in kaart.
Topic modeling is een AI-vorm die Unsupervised Machine Learning wordt genoemd. Dat betekent dat je het systeem niet vooraf traint, door het voorbeelden en labels aan te reiken, (bijvoorbeeld ‘op deze foto staat een hond’ en ‘op deze foto staat een kat’, en ‘allebei zijn huisdieren’). Bij deze vorm leert het systeem zelf welke voorbeelden en labels bij elkaar horen. Om bij het voorbeeld van honden en katten te blijven: bij unsupervised learning zou je het systeem tienduizenden foto’s van honden en katten aanreiken, zonder daarbij te vermelden op welke foto het om een hond gaat en op welke foto je een kat ziet. Het systeem gaat zelf op zoek naar patronen in de foto’s, net zo lang tot het zelf in staat is om honden van katten te onderscheiden.
Topic Modelling werkt net zo. De makers vertellen het systeem niet welke onderwerpen met elkaar te maken hebben, maar laten het systeem zelf op zoek gaan naar patronen in uitspraken, titels, voice-overs, etc.