Wenn KI fähig zu sein scheint, sich etwas vorzustellen und vielleicht auch zu dialogisieren

Sprache auswählen

German

Down Icon

Land auswählen

Italy

Down Icon

Wenn KI fähig zu sein scheint, sich etwas vorzustellen und vielleicht auch zu dialogisieren

Wenn KI fähig zu sein scheint, sich etwas vorzustellen und vielleicht auch zu dialogisieren

Nach GANs sind tatsächlich neue Wege und Lösungen hinzugekommen.

Erstens wird das Transformer-Modell, das zum Verstehen und Generieren von Text erstellt wurde, zur Grundlage von Entwicklungen, die auch zur sequenziellen oder progressiven Annäherungsgenerierung von Bildern führen.

Es gibt das Diffusionsmodell, das genau umgekehrt funktioniert: Es beginnt mit einem Bild, das nur aus Rauschen besteht – stellen Sie sich den Nebel eines Fernsehers vor, der das Signal nicht empfängt – und entfernt Schritt für Schritt das Rauschen, um ein zusammenhängendes Bild freizulegen.

Pixel für Pixel entfernt der Algorithmus, wie ein Bildhauer, der Marmorstücke aus einem einzigen Block entfernt, bis er hinter dem Nebel das Bild findet, das der Block enthält.

Und hier ist der neueste Zuwachs, über den alle reden und den wir immer häufiger bei der Arbeit sehen. Es handelt sich um die multimodale Architektur von ChatGPT 4o Vision, die auch mit Techniken wie RLHF trainiert wurde, einem Akronym, das für Reinforcement Learning With Human Feedback steht und die Qualität der Antworten dank menschlicher Interaktion verbessert.

Und es ist diese Architektur, die heute außergewöhnliche und überraschende Ergebnisse ermöglicht, die so weit gehen, dass man glaubt, die Maschine sei tatsächlich in der Lage, sich etwas vorzustellen.

Es sind die Modelle DALL·E 2 und 3, die Bilder erzeugen, indem sie die vom Menschen gegebenen Eingaben interpretieren und die Illusion vermitteln, sich etwas vorstellen zu können. Sie tun dies, indem sie die Eingabeaufforderung lesen und interpretieren, aber vor allem tun sie dies, indem sie einen Dialog mit dem Mann beginnen, der auf der Tastatur tippt.

Nach 10 Jahren steht der Dialog als nützlicher Ansatz zur Erstellung der bestmöglichen Bilder wieder im Vordergrund.

Der GAN-Dialog war ein vollständig interner Dialog der Maschine, bei dem der menschliche Zuschauer – schweigend – auf eine Antwort wartete.

Der multimodale Modelldialog, der mit dem DELL-E-Modell arbeitet, ermöglicht eine kontinuierliche Interaktion zwischen Mensch und Maschine, wobei die Eingabeaufforderung schrittweise verfeinert werden kann, um das gewünschte Bild zu erhalten. Die beiden scheinen miteinander zu kommunizieren und gelangen Schritt für Schritt zum gewünschten Bild.

Die Maschine, die gelernt hat, die Eingabeaufforderung zu interpretieren, die weiß, wie man ein Pixel nach dem anderen erzeugt und alles Überflüssige aus dem Rauschen entfernt, hört heute zu und befragt denjenigen, der die Eingabeaufforderung erzeugt, bis sie zu dem gelangt, was sich der Mensch vorzustellen versucht.

Wenn wir dachten, dass KI nur auf einer statistischen Berechnung basiert, die Reihenfolge von Wörtern interpretiert und Antworten – oder Bilder – nur auf der Grundlage einer Berechnung liefert, haben wir den Einfallsreichtum der Menschen unterschätzt, die dank der Entwicklung der KI die Spielregeln ändern. Es handelt sich um einen Einfallsreichtum, der von den authentischsten und ältesten menschlichen Mechanismen ausgeht, in der Überzeugung, dass diese, transformiert, sogar für Maschinen einen Unterschied machen können.

* Matteo Scortegagna ist Mitbegründer von Next14, einer integrierten Marketing- und Kommunikationsagentur

ilsole24ore

ilsole24ore

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow