Semafor visualiseert waargebeurde verhalen met AI

Het verhaal

Een waargebeurd verhaal, geïllustreerd door AI. Dat is de video ‘Life during the Russian offensive‘, waarin een Oekraïner vertelt over de verschrikkingen die zij meemaakte onder de Russische bezetting. De persoon is echt, haar verhaal ook. Maar haar woorden worden gevisualiseerd in beelden die AI gegenereerd heeft.

Eind 2022 richtten voormalig journalisten van de New York Times en Bloomberg een nieuwe online redactie op: Semafor. Al snel kwam Semafor met eigen geproduceerde video’s op hun Youtube-kanaal. In die video’s passen ze AI toe op een manier die we niet eerder zagen van nieuwsredacties: om waargebeurde verhalen geautomatiseerd in beeld te brengen.

De data

In de ooggetuige-video heeft Semafor de letterlijke teksten van de hoofdpersoon als data gebruikt. Ze vormen het commando (de prompt) waarop de AI het beeld baseert. Een beetje zoals je in Google een zoekterm invult. Je vult een term in en Google gaat daarmee aan de slag.

De AI

Voor de visualisaties in hun video’s gebruikt Semafor AI-software genaamd Stable Diffusion. In de aftiteling van iedere video staat bij ‘graphics’ vermeld dat ze gemaakt zijn door dit programma.

Screenshot met credits voor AI-toepassing ‘Stable Diffusion’; Video Semafor, Youtube

De technologie achter beeldgeneratoren zoals Stable Diffusion wordt text-to-image (TTI) genoemd. Daar vallen ook de bekendere tools als DALL-E en MidJourney onder. Allemaal zijn ze getraind op basis van miljarden ‘paren’ van tekst en afbeelding, die door de makers van de software van het internet zijn geschraapt (‘gescraped’) en/of zijn verkregen uit stockfotodatabanken. Hoe deze techniek werkt, lees je hier:

Hoe werkt text-to-image (TTI)?

AI-systemen konden eerder al woorden aan afbeeldingen verbinden. Als er op een afbeelding een hond te zien is, kan AI dat herkennen en er het woord ‘hond’ bij zetten. Wetenschappers kwamen op het idee om dit proces om te draaien. Bij TTI bedenkt AI niet de tekst bij een afbeelding, maar juist andersom: je levert tekst aan en de AI levert passend beeld.

Voordat de training voor TTI begint, heeft het team miljoenen beelden van het web moeten scrapen met bijbehorende beschrijvingen van wat er op de foto’s te zien is. Met de beelden en teksten op zak kan het ontwikkelen van een TTI-toepassing beginnen.

Vervolgens is er een systeem dat checkt of het beeld dat gegenereerd is, nog lijkt op de beelden die mensen maken.

Stel dat je prompt is: selfie van een tiener in de stijl van Picasso. Dan gaat het systeem kijken of de door AI gegenereerde tienerselfie in Picassostijl nog overeenkomt met de echte beelden (selfies, tieners en Picasso’s). Het systeem verbetert zichzelf hierbij continu. Als een beeld niet goed genoeg lijkt, maakt het een nieuwe – net zo lang tot het systeem ‘tevreden’ is.
Text-to-image werkt op basis van deep learning. Hoe dat werkt, wordt in onderstaande video eenvoudig uitgelegd.

Wil je meer weten over de werking van text-to-image en heb je een kwartiertje? Kijk dan ook deze video.

Ethiek en betrouwbaarheid

De ene journalist zal vinden dat je over oorlog zo waarachtig en feitelijk mogelijk moet berichten en zo dicht mogelijk op de realiteit dient te zitten. Anderen vinden een meer artistieke en visuele benadering juist prima om ooggetuigenverslagen mee te illustreren. Dat kan nu dus ook met AI, maar je had er net zo goed een illustrator, vormgever of fotograaf voor aan het werk kunnen zetten. Dat brengt sommige journalisten tot de uitroep: dit is broodroof.

Verliezen kunstenaars, illustratoren en (grafisch) ontwerpers hun alleenrecht op ontwerpen nu we kunstmatige intelligentie kunnen inzetten om visuals te maken? Moeten zij vrezen voor hun baan? Of is er voor creativiteit meer nodig dan machines kunnen bieden?

Hoe het ook zij, text-to-image kan een toegevoegde waarde hebben bij onderwerpen die moeilijk te verbeelden zijn. Denk dan aan ‘#metoo’, ‘crypto’, ‘blockchain’ of ‘energie’.

Of je het nu mee eens bent met de inzet van voorbeeld van generatieve AI of niet, je kunt je waarschijnlijk heel goed situaties voorstellen waarin er te weinig tijd of budget is en je als beeldredacteur naar stockfoto’s grijpt. Daar komt met generatieve AI een nieuwe financieel aantrekkelijke optie bij.

Een belangrijke kanttekening is dat er eind 2022 nog geen goede wetgeving rondom eigendom bestaat: van wie is een door AI-gegenereerd beeld eigenlijk, en wat mag je ermee? In de VS zijn de eerste rechtszaken aangespannen tegen bedrijven die volgens de aanklagers materiaal van het internet onrechtmatig hebben gebruikt om hun modellen mee te trainen.

Een ander belangrijk element in de discussie over deze technologie is de klimaatimpact die het trainen van modellen heeft. Om beeldinformatie op te slaan, modellen te trainen en nieuwe beelden te genereren is namelijk veel energie nodig. En hoe meer data, hoe beter text-to-image modellen werken, maar hoe hoger ook de klimaatimpact. Een belangrijke ethische vraag is dus: in hoeverre houd je rekening met de ecologische voetafdruk van zo’n innovatie? Nogal wat zaken om dus rekening mee te houden wanneer je voor je artikel of video ‘even’ een afbeelding laat genereren door DALL-E of Stable Diffusion.

Lesmaterialen

Geen beschikbaar lesmateriaal

Disclaimer. De onderzoekers hebben geprobeerd alle informatie te verifiëren bij de betrokken media. Waar dit niet is gelukt, is ervoor gekozen om op basis van de beschikbare informatie een zo volledig mogelijk beeld te schetsen van de software die (zeer waarschijnlijk) gebruikt is. De onderzoekers zijn daarbij bijgestaan door AI-experts. Omdat de experts de genoemde AI-toepassingen in meer algemene termen duiden, bestaat de kans op onjuiste details of onvolledigheden. Mocht u deze aantreffen, neem dan gerust contact op.