Welk onderwerp, welke vorm, welke behoefte? AI geeft raad

Soms bereikt een artikel onverwachts een groot publiek, of juist een klein publiek. Het is niet altijd duidelijk waaraan dat ligt. Maar er zijn tools die je daarbij helpen: ze voorspellen welke koppen het best werken en welke tijdstippen geschikt zijn voor welke onderwerpen.

📰 Het verhaal

Smartocto is zo’n tool. Het helpt redacties op allerlei manieren om hun publiek zo goed mogelijk te bereiken. Zo helpt de software bij het A/B-testen van koppen: een journalist kan twee nieuwskoppen invullen waarop de feature Tentacles bijhoudt welke van de twee (nieuwskop A of B) het beste werkt. Smartocto zet automatisch de best presterende kop boven het artikel.

Net als Google Analytics biedt smartocto verder inzicht in de lezersdata van nieuwsmedia. In het dashboard kunnen journalisten inzien welke artikelen goed worden gelezen. Ook kan smartocto slimme aanbevelingen doen, bijvoorbeeld om een bepaald webartikel ook op Facebook te plaatsen omdat smartocto voorspelt dat het het daar goed zal doen. Op basis van lezersdata kan smartocto journalisten bovendien adviseren welk type verhaal het best gepost kan worden op welk moment van de dag.

📈 De data

Smartocto maakt gebruik van verschillende soorten informatie (ook wel datapunten genoemd) om het model te voeden. De datapunten kunnen bestaan uit bijvoorbeeld informatie over artikelen op Facebook (likes, shares, opmerkingen), gelijksoortige data van Instagram, lezersdata van de website (leestijd en scroll depth – hoe ver scrollt iemand door een artikel?) of het percentage van gebruikers dat een pushbericht opent. Smartocto brengt deze informatie samen om een breder beeld te krijgen van hoe goed een artikel wordt ontvangen door het publiek.

🦾 De AI

AI-technisch is het product Smartify van smartocto relatief overzichtelijk: het doet voorspellingen op basis van historische (analytics-)data. Wat het model oplevert, is een kansberekening.

Een vergelijking: stel je voor dat je je huis wil verkopen. Dan bedenk je vaak samen met een verkoopmakelaar de vraagprijs. Waar smartocto datapunten gebruikt zoals likes, leestijd en scroll depth, gebruikt je makelaar de postcode, het aantal vierkante meters, bouwjaar en aantal badkamers als datapunten om tot een waardevoorspelling te komen. Zo weet je voor hoeveel geld je jouw huis kunt aanbieden.

Een typisch regressie-vraagstuk

Smartocto’s Smartify werkt in die zin hetzelfde. Het kijkt naar resultaten uit het verleden. Op basis daarvan kan het voorspellen dat het een goede score oplevert als journalist X over onderwerp Y schrijft. Het type ‘AI-probleem’ van smartocto (of je makelaar) valt onder (lineaire) regressie. Je past lineaire regressie toe wanneer je op basis van informatie uit het verleden een voorspelling wilt doen over de toekomst en als je verwacht dat er een lijn is die zich voortzet. De eerder verkochte huizen in jouw buurt zijn bijvoorbeeld de datapunten die je helpen om de vraagprijs voor jouw woning te bepalen.

Een ander voorbeeld van regressie is dat je temperatuur en regenkans kunt gebruiken om te voorspellen hoeveel ijsjes een ijswinkel gaat verkopen. We voorspellen ook hier weer een getal. Zo’n getal kun je als aanbeveling gebruiken, bijvoorbeeld om je huis met een bepaalde vraagprijs op Funda te plaatsen of om grondstoffen in te kopen voor softijsproductie.

In de praktijk kan smartocto aanbevelingen doen doordat het meerdere gegevens combineert. Die gaan bijvoorbeeld over het onderwerp, de vorm en de behoefte waarin een artikel voorziet. Zo kan de tool zien of een inspirerend (lezersbehoefte) interview (vorm) over de woningmarkt (onderwerp) het goed doet bij het publiek. Vervolgens weet het notificatiesysteem daar bepaalde tips bij te geven. Stel dat een simpel nieuwsbericht over de woningmarkt op de website verschijnt, dan kan de tip zijn: ‘Maak een persoonlijk interview over dit onderwerp om lezers te inspireren.’

⚖️ Ethiek en betrouwbaarheid

Door als redactie op basis van lezersdata bepaalde online uitingen te doen op specifieke momenten of op een specifieke manier kan in theorie het journalistieke kompas op de achtergrond raken. Een journalist kan de data en aanbevelingen van smartocto gebruiken als inspiratie om een bepaald type verhaal te schrijven, maar dit moet in de praktijk nog wel passen binnen de doelen en signatuur van de redactie. De software vormt een ondersteuning voor het journalistieke werk, maar kan het journalistieke kompas niet vervangen. Daar moet je je als journalist van bewust zijn als je dit type AI gebruikt.

Benieuwd hoe zo’n metrics-omgeving eruit ziet? Kijk dan eens naar dit voorbeeld van Google Analytics. Hier zie je de cijfers van de Google Merchandise Store. Zo krijg je een idee hoe metrics (zoals ook die van smartOcto) eruit kunnen zien.

📚 Lesmateriaal

💡 Leerdoel: Bewust worden van ethische kant van AI-tools

Smartocto biedt geweldige mogelijkheden om een groter publiek te bereiken. Je wilt als journalist immers dat je producten een zo groot mogelijke doelgroep bereiken. Of niet? 

Bespreek met de groep een aantal stellingen die gaan over de keerzijde van deze tool.

Je kunt de volgende stellingen gebruiken:

  • Als journalist is je bereik het belangrijkst, want je moet je publiek bedienen.
  • Een tool als Smartocto gaat in tegen de kritische houding die elke journalist moet hebben. 
  • Smartocto werkt inclusieve berichtgeving tegen. 
  • Met een tool als Smartocto vergroot je de polarisatie in de samenleving. 
  • Het gebrek aan transparantie van de makers maken dit soort tools tot een gevaar voor de journalistiek.
  • Smartocto draagt bij aan filterbubbels.

🧰 Materiaal

⏱ Tijdsindicatie

Vanaf 10 minuten (afhankelijk van het aantal stellingen dat je wil bespreken), waarvan:

  • 5 voor het lezen van het verhaal
  • 5 voor het bespreken van een stelling

💡 Leerdoel: Je gaat zelf een model trainen dat tekst kan herkennen en ontdekt welke stappen je daarvoor moet zetten.

Smartocto voorspelt onder andere welke kop het beste werkt.

Koppen analyseren kan op veel manieren – van heel simpel tot behoorlijk ingewikkeld. In deze opdracht gaan we een model trainen om een eenvoudige tekstanalyse te doen. Je gaat het leren om in te schatten welke kop bij welk medium hoort.

Daarvoor moet je het model eerst voeden met zoveel mogelijk koppen van De Telegraaf, de Volkskrant, NU.nl en de Correspondent. Bij iedere kop vermeld je van welk medium hij afkomstig is. Dat zijn je gelabelde data.

Met die informatie zet je het Machine Learning model aan het werk. Het gaat proberen om patronen te ontdekken, bijvoorbeeld door te kijken naar woordgebruik of -volgorde, lengte of het gebruik van interpunctie.  

1. Maak tweetallen en ga naar https://machinelearningforkids.co.uk/ in een webbrowser.

2. Klik op “Aan de slag” of “Get started”

3. Klik op “Inloggen” en voer je gebruikersnaam en wachtwoord in. Deze krijg je van de docent. (Zie het antwoordmodel voor de docent voor meer uitleg over het aanmaken van een account).

4. Klik als je ingelogd bent op “Projects”, en dan op “Add a new project”. Noem het project “Krantenkoppen”.  Vink aan dat het tekst moet herkennen (“Recognising text”).

5. “Krantenkoppen” staat nu tussen je projecten. Klik erop.

6. Klik vervolgens op “Train”.

7. Maak eerst een ruimte om koppen van de Telegraaf op te slaan. Klik daarvoor op “+ Nieuw label toevoegen”.

8. Noem deze bucket “Telegraaf” en klik op “Toevoegen”.

9. Klik nogmaals op de knop “+ Een nieuw label toevoegen” en maak op dezelfde manier een label aan voor de Volkskrant, NU.nl en De Correspondent.

10. Ga naar de websites van deze vier kranten en verzamel zoveel mogelijk koppen.

11. Voeg de verzamelde koppen als voorbeelden toe aan het juiste vak in de projectpagina. Klik op “Add new example”, plak de kop in het tekstvak en klik tot slot op “Add”.

12. Nu is het tijd om het model te trainen op basis van de data (de koppen) en labels (Telegraaf, Volkskrant, NU.nl en Correspondent) die jullie hebben ingevoerd. Klop op “< Terug naar project”, en dan “Leren en testen”.

13. Klik vervolgens op “Nieuw Machine Learning-model trainen”. Het duurt een minuut of twee om het model te trainen.

14. Als het model daarmee klaar is, kun je het testen. Voer in het lege vak een kop in van de Telegraaf, de Volkskrant, NU.nl of de Telegraaf. Kies er een die je niet hebt gebruikt als voorbeeld om het model mee te trainen (bijvoorbeeld een kop van wat langer geleden). Klik vervolgens op test. Herhaal dit met verschillende koppen.

💭 Bespreking

Bespreek klassikaal:

  • Hoe goed werkt het model?
  • Waar komt dat door?
  • Hoe kun je het verbeteren?
  • Wat begrijp je van de manier waarop het Machine Learning model met de voorbeelden aan de slag is gegaan? Wat vind je daarvan?
  • Kun je bedenken hoe dit type model, dat tekst kan leren herkennen, een journalistieke redactie zou kunnen helpen? Tip: Kijk eens rond op deze website. Bij welke andere voorbeelden wordt AI gebruikt om tekst te herkennen of analyseren?

📚 Vervolg opdracht

Klik nu in je projectpagina op “Learn & Test”, en vervolgens op “Describe Your Model”. Daar kun je (kort) lezen hoe het model krantenkoppen omzet in numerieke waarden en ze op basis daarvan analyseert.

Je hoeft de wiskundige uitleg niet te begrijpen. Wat je zal zien, is dat de manier waarop een AI-model naar koppen kijkt, anders is dan hoe mensen ze bekijken. Zelf denk je bij een Telegraafkop misschien aan chocoladeletters of sensationele bewoording, terwijl een AI-model bijvoorbeeld telt hoe vaak bepaalde woorden gebruikt zijn of analyseert wat de woordvolgorde is.

Het model dat je hier getraind hebt, is van tevoren geprogrammeerd. Het is daardoor niet geheel transparant over de manier waarop het werkt. Je voert weliswaar zelf de data en labels aan (de koppen en mediatitels), maar hebt geen zicht op de manier waarop het model daaruit vervolgens conclusies trekt. Wat vind je daarvan?

  • Heb je ideeën om de werkwijze transparanter te maken als je dat nodig vindt?

🧰 Materiaal

⏱ Tijdsindicatie

35 minuten, waarvan:

  • 5 minuten voor het lezen van het verhaal
  • 5 minuten voor het trainen van het model
  • 10 minuten voor het testen
  • 5 minuten voor de bespreking van de test
  • 5 minuten voor het lezen van de werking van het model
  • 5 minuten voor het bespreken van de transparantie

Disclaimer.

De onderzoekers hebben geprobeerd alle informatie te verifiëren bij de betrokken media. Waar dit niet is gelukt, is ervoor gekozen om op basis van de beschikbare informatie een zo volledig mogelijk beeld te schetsen van de software die (zeer waarschijnlijk) gebruikt is. De onderzoekers zijn daarbij bijgestaan door AI-experts. Omdat de experts de genoemde AI-toepassingen in meer algemene termen duiden, bestaat de kans op onjuiste details of onvolledigheden. Mocht u deze aantreffen, neem dan gerust contact op.