Cuando la IA parece capaz de imaginar y quizás de dialogar

Después de las GAN, de hecho, han llegado nuevos caminos y soluciones.
En primer lugar, el modelo Transformer, creado para comprender y generar texto, se convierte en la base de evoluciones que también conducen a la generación de imágenes de forma secuencial o mediante aproximaciones progresivas.
Existe el modelo de Difusión, que funciona al revés: parte de una imagen compuesta sólo de ruido –imaginemos la niebla de un televisor que no capta la señal– y, paso a paso, va eliminando el ruido hasta revelar una imagen coherente.
Píxel tras píxel, el algoritmo va eliminando, como un escultor que quita trozos de mármol de un solo bloque, hasta encontrar la imagen que el bloque contiene, detrás de la niebla.
Y ahí está la última incorporación, aquella de la que todo el mundo habla y la que vemos cada vez más en acción. Se trata de la arquitectura multimodal de ChatGPT 4o Vision que además ha sido entrenada con técnicas como RLHF, acrónimo que significa Reinforcement Learning With Human Feedback, que mejoran la calidad de las respuestas gracias a la interacción humana.
Y es esta arquitectura la que –hoy– permite obtener resultados extraordinarios y sorprendentes, hasta el punto de hacer pensar que la máquina es realmente capaz de imaginar.
Son los modelos DALL·E 2 y 3 los que generan imágenes, interpretando la indicación proporcionada por el ser humano y dando la ilusión de poder imaginar. Lo hacen leyendo e interpretando la instrucción, pero lo más importante es que abren un diálogo con el hombre que escribe en el teclado.
El diálogo vuelve a cobrar protagonismo después de 10 años, como un enfoque útil para construir las mejores imágenes posibles.
El diálogo GAN era un diálogo enteramente interno a la máquina, con el espectador humano, en silencio, esperando una respuesta.
El diálogo del modelo multimodal, que funciona con el modelo DELL-E, permite una interacción continua entre el ser humano y la máquina, donde la indicación se puede refinar progresivamente para obtener la imagen deseada. Los dos, juntos, parecen dialogar y llegar, paso tras paso, a la imagen deseada.
La máquina que ha aprendido a interpretar el prompt, que sabe generar un píxel tras otro y restar del ruido todo lo que no necesita, hoy escucha y cuestiona a quien produce el prompt hasta llegar a lo que el hombre intenta imaginar.
Si pensábamos que la IA se basaba únicamente en un cálculo estadístico, que interpreta el orden de las palabras y proporciona respuestas –o imágenes– basándose únicamente en un cálculo, subestimamos el ingenio de los hombres que están cambiando las reglas del juego gracias al desarrollo de la IA. Es un ingenio que parte de los mecanismos humanos más auténticos y ancestrales, en la creencia de que, transformados, pueden marcar la diferencia incluso para las máquinas.
* Matteo Scortegagna es cofundador de Next14, una agencia integrada de marketing y comunicación.
ilsole24ore