Quando l’Ai sembra capace di immaginare e forse di dialogare

Dopo le GAN, infatti sono arrivate nuove strade e soluzioni.

Prima il modello Transformer, nato per comprendere e generare testo, diventa la base di evoluzioni che portano anche alla generazione di immagini in modo sequenziale o per approssimazioni progressive.

C’è il Diffusion model che invece lavora al contrario: parte da un’immagine composta solo di rumore - immaginate la nebbia della televisione che non prende il segnale- e, passo dopo passo, rimuove il rumore per rivelare un’immagine coerente

Pixel dopo pixel, l’algoritmo toglie, come lo scultore che toglie da un unico blocco i pezzi di marmo, fino a trovare l’immagine che il blocco contiene, dietro la nebbia.

E c’è l’ultimo nato, quello di cui tutti parlano e che vediamo sempre di più all’opera. E’ l’architettura multimodale propria di ChatGPT 4o Vision che è stato addesrrato anche con tecniche come RLHF, acronimo che significa Reinforcement Learning With Human Feedback, che migliorano la qualità delle risposte grazie all’interazione umana.

Ed è questa l’architettura che – oggi- consente risultati straordinari e sorprendenti, fino a far pensare che la macchina, davvero, è in grado di immaginare.

Sono i modelli DALL·E 2 e 3 a generare immagini, interpretando il prompt fornito dall’essere umano e a dare l’illusione di essere in grado di immaginare. Lo fanno leggendo e interpretando il prompt, ma soprattutto lo fanno aprendo un dialogo con l’uomo che sta digitando sulla tastiera.

Il dialogo torna di nuovo protagonista dopo 10 anni, come approccio utile per costruire le migliori immagini possibili.

Il dialogo delle GAN era un dialogo tutto interno alla macchina, con l’uomo spettatore – silente – in attesa di una risposta.

Il dialogo del modello multimodale, che agisce con il modello DELL-E permette un’interazione continua tra essere umano e macchina, in cui il prompt può essere progressivamente raffinato per ottenere l’immagine desiderata. I due, insieme, sembrano dialogare e arrivare un passo dopo l’altro all’immagine desiderata.

La macchina che ha imparato ad interpretare il prompt, che sa generare un pixel dopo l’altro e sottrarre dal rumore tutto ciò che no serve, oggi ascolta e interroga chi produce il prompt fino ad arrivare a quello che l’uomo sta provando ad immaginare.

Se abbiamo pensato che l’AI si basasse solo su un calcolo statistico, che interpreta l’ordine delle parole e fornisce risposte – o immagini – basandosi solo su un calcolo abbiamo sottovalutato l’ingegno degli uomini che stanno cambiando le regole del gioco grazie allo sviluppo dell’AI. E’ un ingegno che parte dai meccanismi umani più autentici e ancestrali, nella convinzione che, trasformati, possano fare la differenza anche per macchine.

* Matteo Scortegagna è co-founder di Next14 agenzia integrata di marketing e comunicazione

ilsole24ore

Quando l’Ai sembra capace di immaginare e forse di dialogare

Notizie simili

Processo a Musk: il bilancio della guida del Doge e le prossime mosse

Il down di X delle ultime ore è in via di risoluzione

Quando l’Ai sembra capace di immaginare e forse di dialogare

X, malfunzionamenti in tutto il mondo

“Stop Hiring Humans”. Provocazione, paure e futuro del lavoro nell’era dell’intelligenza artificiale