Tegenlicht bedacht een slim archief op basis van AI

Stel, je zoekt als journalist beeld over de Israëlische minister-president Benjamin Netanyahu. Waar begin je dan? Alleen op YouTube staan al vijf miljard video’s. Je ziet door de bomen het bos niet meer. VPRO Tegenlicht bedacht iets om videocontent makkelijker vindbaar te maken: Het Archief van de Toekomst.

📰 Het verhaal

VPRO Tegenlicht heeft sinds 2002 al meer dan vijfhonderd televisie-uitzendingen gemaakt. Dat zijn vele uren aan beeldmateriaal. Zoveel, dat het behoorlijk onoverzichtelijk werd. Het Archief van de Toekomst biedt een oplossing. Het maakt gebruik van kunstmatige intelligentie om het archief makkelijker doorzoekbaar te maken.

Dankzij algoritmes voor beeldherkenning en spraak- en tekstanalyse kun je een archief met alle uitzendingen doorzoeken op basis van uitspraken, fragmenten of beelden. Zo kun je op ‘Trump’ zoeken en krijg je een overzicht, gesorteerd op jaar, van alle fragmenten waarin Donald Trump is genoemd of beelden van Trump zijn gebruikt.

Hoe helpt mij dit als journalist?
Je hoeft niet langer scrollend uitzending na uitzending te doorlopen, zoekend naar dat ene moment dat je toch echt pas geleden bij Tegenlicht hebt gezien. Dankzij het Archief van de Toekomst kun je nu  trefwoorden intypen waarmee AI de juiste fragmenten voor je selecteert. Maar hoe werkt dat dan?

Laten we allereerst eens kijken naar de gebruikte data.

📈 De data

Elke uitzending van VPRO Tegenlicht kun je als data beschouwen: ze bestaan uit fragmenten die nuttig kunnen zijn voor journalisten. Daarnaast bevat iedere uitzending ‘metadata’: dat is informatie óver de uitzending. In die metadata staat een korte beschrijving van de inhoud zoals je die vroeger in televisiegidsen tegenkwam, maar ook de lengte van de aflevering, wie de maker is, wie er verder aan meegewerkt hebben, de uitzenddatum en meer van dit soort zaken. Naast de primaire data (de aflevering) en de metadata is er een derde databron: de ondertiteling. Die wordt bij de publieke omroepen standaard aan elk programma toegevoegd. Hierdoor kan het AI-systeem ook met tekst werken.

🦾 De AI

Het digitale archief van de VPRO gebruikt drie vormen van kunstmatige intelligentie om de uitzendingen doorzoekbaar te maken: beeldherkenning, tekstherkenning en onderwerp-modellering (‘topic modeling’). Schrik niet van deze terminologie. We leggen het je stap voor stap uit.

Beeldherkenning
Met beeldherkenning (ook wel ‘computer vision’, vaak afgekort als CV) worden personen en plekken in de uitzendingen herkend. Het is een optie die je misschien ook wel gebruikt in de foto-app op je smartphone. Deze herkent automatisch een vriend of familielid op foto’s wanneer je die persoon op eerdere foto’s een naam hebt gegeven. (Je hebt daarmee een AI-systeem getraind!).

Naast het herkennen van gezichten in afbeeldingen kun je met beeldherkenning ook objecten automatisch herkennen, zoals auto’s, koffiebekers, gebouwen of pleinen. Denk aan de Martinitoren, De Kuip, het Vrijthof of het Vrijheidsbeeld in New York. Dankzij beeldherkenning kan het Archief van de Toekomst jou de fragmenten geven die passen bij je zoekterm.

Tekstherkenning
Naast het herkennen van personen en objecten in beeld, gebruikt het Archief van de Toekomst ook entiteitsherkenning in tekst. Simpel gezegd zijn entiteiten ‘dingen die bestaan’, zoals personen, organisaties en locaties. Gaat een Tegenlicht-uitzending over Dilan Yeşilgöz-Zegerius, de Dienst Uitvoering Onderwijs of de snelweg A27 bij Utrecht, dan herkent deze vorm van AI al die entiteiten automatisch in de tekst. Handig als je daar als journalist naar op zoek bent. Deze vorm van AI moet binnen het Tegenlicht-archief teksten, zoals die van pratende mensen en voice-overs, herkennen en begrijpen.

Vaak zijn entiteitsherkenners getraind met data van Wikipedia. Je mag er daarom gemakshalve van uitgaan dat wanneer iets of iemand een eigen pagina heeft op Wikipedia, deze ook als entiteit herkend wordt door AI.

Transcriptie
Om teksten in videofragmenten te kunnen analyseren, kunnen de makers ervoor kiezen om een transcriptietool in te zetten. Deze kan spraak omzetten in tekst. Misschien heb je zelf wel eens met zo’n tool gewerkt om een audio-opname van een interview uit te werken?

Onderwerp-modellering
Om het archief nog beter te kunnen doorzoeken, is tot slot topic modeling toegepast. Dit is een vorm van tekstanalyse door AI die helpt om informatie uit verschillende bronnen aan elkaar te verbinden. Denk hierbij aan het herkennen van namen van verschillende CEO’s van Shell die vervolgens gekoppeld worden aan directeuren van multinationals in andere uitzendingen uit het archief. Met topic modeling breng je verwante onderwerpen of trefwoorden tussen of binnen uitzendingen in kaart.

Topic modeling is een AI-vorm die Unsupervised Machine Learning wordt genoemd. Dat betekent dat je het systeem niet vooraf traint, door het voorbeelden en labels aan te reiken, (bijvoorbeeld ‘op deze foto staat een hond’ en ‘op deze foto staat een kat’, en ‘allebei zijn huisdieren’). Bij deze vorm leert het systeem zelf welke voorbeelden en labels bij elkaar horen. Om bij het voorbeeld van honden en katten te blijven: bij unsupervised learning zou je het systeem tienduizenden foto’s van honden en katten aanreiken, zonder daarbij te vermelden op welke foto het om een hond gaat en op welke foto je een kat ziet. Het systeem gaat zelf op zoek naar patronen in de foto’s, net zo lang tot het zelf in staat is om honden van katten te onderscheiden.

Topic Modelling werkt net zo. De makers vertellen het systeem niet welke onderwerpen met elkaar te maken hebben, maar laten het systeem zelf op zoek gaan naar patronen in uitspraken, titels, voice-overs, etc.

De makers van het Archief van de Toekomst, Geert-Jan Strengholt en Geert Rozinga, over de totstandkoming van het archief.

⚖️ Ethiek en betrouwbaarheid

Hoewel een makkelijk doorzoekbaar archief als het Archief van de Toekomst de journalist tijd en moeite kan besparen, kan het er ook voor zorgen dat je bijna té eenvoudig het fragment vindt dat je zoekt. Zoek je naar een positieve uitspraak over Mark Rutte en kom je in je research ook veel negatieve uitspraken tegen (of andersom), dan kan dit je journalistieke kompas triggeren. Misschien besluit je dan om een verhaal toch een andere insteek te geven dan je vooraf had gedacht. Wanneer je echter heel gericht op bepaalde fragmenten zoekt, ontbreken er  misschien belangrijke onderdelen in het zoek- en denkproces. Je moet moet je er als journalist van bewust zijn dat je misschien oogkleppen op hebt  wanneer je zoekresultaten heel specifiek zijn. Je kunt dit risico verminderen door een variatie aan zoektermen te gebruiken.

📚 Lesmateriaal

💡 Leerdoel: Je begrijpt dat bestaande AI-toepassingen meerdere vormen van Machine Learning gebruiken

We gaan kwartetten, en het spel ga je zelf maken.

Het Archief van de Toekomst maakt gebruik van verschillende vormen van Machine Learning. Maak een kwartet op basis van de belangrijkste onderdelen uit de casus en zoek er meer voorbeelden bij. 

Maak groepen van drie of vier studenten.

  1. In het artikel worden verschillende werkingsmechanismen en vormen van AI genoemd. Bepaal minstens drie relevante categorieën van AI die je uit het artikel haalt. Je mag ook elders op de website zoeken. 
  2. Geef per categorie vier voorbeelden (die vormen samen één kwartet). Stel, één van je categorieën is ‘entiteitsherkenning’. Dan zoek je vier voorbeelden waarin deze AI-vorm gebruikt wordt, zoals bijvoorbeeld het verhaal over geheimgehouden moorden in Mexico. Tip: op deze website staan veel voorbeelden, maar je kunt natuurlijk ook op andere plekken online research doen. Je voorbeelden hoeven niet per se journalistiek te zijn. Ze mogen ook uit andere werkvelden komen.  
  3. Schets de kaarten. Je maakt er dus minimaal twaalf: vier voor elk van je drie categorieën. 
  4. Zet op elke kaart:
    1. De naam van de categorie bovenaan (bijv. entiteitsherkenning)
    2. In het midden een tekening van het voorbeeld (bijv. het verhaal over moorden in Mexico)
    3. Daaronder de naam van het voorbeeld (bijv. Moorden in Mexico)
    4. En daarnaast icoontjes voor de overige drie voorbeelden (die samen met de huidige kaart het kwartet vormen).

Wissel het kwartet als het af is uit met een andere groep en speel een rondje met elkaar. Daarna ga je dit klassikaal bespreken.

💭 Bespreking

Na één speelronde kun je eventueel nog een wissel van kwartetten doen. Als studenten zelf een kwartet hebben gemaakt én twee andere kwartetten hebben gebruikt, beginnen bepaalde zaken op te vallen.

  • Wat viel je op tijdens het spelen van het kwartet van de ander?
  • Kloppen de gekozen voorbeelden?
  • Waarom wel of niet?
  • Vraag eerst de student die reageert, daarna de bedenker en vervolgens een derde student die het eens of oneens is met de andere studenten.

🧰 Materiaal

⏱ Tijdsindicatie

90 minuten totaal, waarvan:

  • 20 minuten om met je groep de categorieën te bepalen op basis van het artikel over slim archiveren.
  • 15 minuten om passende voorbeelden te vinden (naast dit voorbeeld staan er genoeg op de site).
  • 20 minuten om de 16 kaartjes te schetsen met daarop het voorbeeld, de naam van het voorbeeld en de categorie, en om  ze uit te knippen tot een speelbaar kwartet.
  • 15 minuten om kwartetten uit te wisselen met een ander groepje en een ronde te spelen. Wissel vervolgens met een ander groepje en speel nog een rondje.
  • 20 minuten om klassikaal te bespreken.

💡 Leerdoel: Je gaat zelf een spraakherkenningsmodel trainen om te ontdekken wat daarbij komt kijken.

Het Archief Van De Toekomst kan teksten in videofragmenten herkennen. Dus als jij een zoekterm gebruikt, zoals ‘LowLands’, dan zal het archief je alle fragmenten laten zien waarin het festival genoemd wordt.

Om dat mogelijk te maken, is spraakherkenning nodig. Het systeem moet tenslotte gesproken teksten in videofragmenten herkennen om het te kunnen verbinden aan jouw ingetypte zoekterm.

In deze opdracht ga je zelf een eenvoudig spraakherkenningssysteem trainen. Zo krijg je een idee hoe dit in zijn werk gaat.

1. Maak tweetallen en ga naar https://machinelearningforkids.co.uk/ in een webbrowser.

2. Klik op “Aan de slag” of “Get started”.

3. Klik op “Inloggen” en voer je gebruikersnaam en wachtwoord in. Deze krijg je van de docent. (Zie het antwoordmodel voor de docent voor meer uitleg over het aanmaken van een account).

4. Klik als je ingelogd bent op “Projects”, en dan op “Add a new project”. Noem het project “Spraakherkenning”.  Vink aan dat het geluiden moet herkennen (“Recognising text”).

5. “Spraakherkenning” staat nu tussen je projecten. Klik erop. Klik vervolgens op de knop “Train”.

6. Klik op de knop “voorbeeld toevoegen” in het vak met achtergrondruis (“background noise”). Het Machine Learning model leert op die manier het verschil tussen geluiden die ertoe doen en achtergrondgeluiden die het mag negeren.

7. Klik op de microfoon om 2 seconden achtergrondgeluid op te nemen. Je hoeft dus niks te zeggen, maar legt de geluiden van de ruimte waar je bent vast.

8. Klik op “Toevoegen” om je geluid op te slaan. Herhaal dit tot je minimaal acht fragmentjes hebt met achtergrondgeluiden.

9. Bedenk nu vier journalistieke begrippen die je je spraakherkenningsmodel wil leren. Maak voor elk van deze termen een vak aan door te klikken op “Voeg nieuw label toe”.

10. Gebruik de knop “Voorbeeld toevoegen” om aan ieder vak minimaal acht voorbeelden toe te voegen. Voor ieder van die voorbeelden spreek je de journalistieke term die je gekozen hebt op een andere manier uit. Met hoge stem, lage stem, met geïmproviseerde accenten. Leef je uit!

11. Klik op “Go back to project”, linksboven, en dan op “Learn & Test”.

12. Klik vervolgens op “Train new Machine Learning model”.

13. Vervolgens klik je op “Start Listening” om je model te testen. Als het model aan het luisteren is, kun je er tegen praten om het te testen. Praat in volzinnen. Het maakt niet uit wat je zegt, maar gebruik zo af en toe één van de woorden die je het model geleerd hebt. Als het model de woorden herkent, zal hij dat laten zien.

💭 Bespreking

Bespreek klassikaal:

  • Hoe goed werkt je model?
  • Wat is ervoor nodig om het (nog) beter te laten werken?
  • Kun je bedenken op welke manier de journalistiek iets kan hebben aan spraakherkenning, naast het Archief Van De Toekomst?
  • Wat begrijp je van de manier waarop het Machine Learning model met de voorbeelden aan de slag is gegaan? Wat vind je daarvan?

🧰 Materiaal

⏱ Tijdsindicatie

20 minuten, waarvan:

  • 5 minuten om het verhaal over Het Archief Van De Toekomst te lezen.
  • 10 minuten om geluiden op te nemen en te testen
  • 5 minuten om na te spreken

Disclaimer.

De onderzoekers hebben geprobeerd alle informatie te verifiëren bij de betrokken media. Waar dit niet is gelukt, is ervoor gekozen om op basis van de beschikbare informatie een zo volledig mogelijk beeld te schetsen van de software die (zeer waarschijnlijk) gebruikt is. De onderzoekers zijn daarbij bijgestaan door AI-experts. Omdat de experts de genoemde AI-toepassingen in meer algemene termen duiden, bestaat de kans op onjuiste details of onvolledigheden. Mocht u deze aantreffen, neem dan gerust contact op.