Als AI in staat lijkt te zijn tot verbeelding en misschien tot dialoog

Na de GAN's zijn er inderdaad nieuwe wegen en oplossingen ontstaan.
Ten eerste vormt het Transformer-model, dat is ontworpen om tekst te begrijpen en te genereren, de basis voor ontwikkelingen die ook leiden tot de generatie van afbeeldingen opeenvolgend of door progressieve benaderingen.
Dan is er het diffusiemodel, dat precies andersom werkt. Dat model begint met een beeld dat alleen uit ruis bestaat (denk aan de beslagen televisie die het signaal niet oppikt). Stap voor stap wordt de ruis verwijderd, zodat er een samenhangend beeld ontstaat.
Pixel voor pixel verwijdert het algoritme, net zoals een beeldhouwer stukjes marmer uit een enkel blok haalt, totdat het de afbeelding van het blok achter de mist vindt.
En dan is er nog de nieuwste toevoeging, degene waar iedereen het over heeft en die we steeds vaker op het werk zien. Het is de multimodale architectuur van ChatGPT 4o Vision die ook is getraind met technieken zoals RLHF, een acroniem dat staat voor Reinforcement Learning With Human Feedback, die de kwaliteit van de reacties verbetert dankzij menselijke interactie.
En het is deze architectuur die – vandaag de dag – buitengewone en verrassende resultaten mogelijk maakt, zozeer zelfs dat je zou denken dat de machine werkelijk in staat is tot verbeelding.
Het zijn de DALL·E 2 en 3 modellen die beelden genereren, die de door de mens gegeven aanwijzingen interpreteren en de illusie van verbeelding wekken. Ze doen dit door de opdracht te lezen en te interpreteren, maar nog belangrijker: door een dialoog te openen met de man die op het toetsenbord typt.
Na 10 jaar is dialoog weer terug op de voorgrond als een nuttige aanpak voor het creëren van de best mogelijke beelden.
De GAN-dialoog was een dialoog die volledig intern in de machine plaatsvond, waarbij de menselijke toeschouwer – zwijgend – wachtte op een antwoord.
De multimodale modeldialoog, die met het DELL-E-model werkt, maakt continue interactie tussen mens en machine mogelijk, waarbij de prompt steeds verfijnder kan worden om het gewenste beeld te verkrijgen. Samen lijken ze een dialoog aan te gaan en komen ze stap voor stap tot het gewenste beeld.
De machine die heeft geleerd de opdracht te interpreteren, die pixel na pixel kan genereren en alles wat niet nodig is uit de ruis kan weglaten, luistert en bevraagt nu degene die de opdracht produceert, totdat hij uitkomt bij wat de mens zich probeert voor te stellen.
Als we dachten dat AI alleen gebaseerd was op een statistische berekening, die de volgorde van woorden interpreteert en alleen op basis van een berekening antwoorden – of afbeeldingen – geeft, dan onderschatten we de vindingrijkheid van mensen die dankzij de ontwikkeling van AI de spelregels veranderen. Het is een vindingrijkheid die uitgaat van de meest authentieke en voorouderlijke menselijke mechanismen, in de overtuiging dat deze, in aangepaste vorm, ook voor machines het verschil kunnen maken.
* Matteo Scortegagna is medeoprichter van Next14, een geïntegreerd marketing- en communicatiebureau
ilsole24ore