„Dem Geheimnis großer Sprachmodelle auf der Spur“

Sprache auswählen

German

Down Icon

Land auswählen

Italy

Down Icon

„Dem Geheimnis großer Sprachmodelle auf der Spur“

„Dem Geheimnis großer Sprachmodelle auf der Spur“

Künstliche Intelligenz sollte eigentlich nicht in der Lage sein, die menschliche Sprache korrekt zu verwenden. Und doch tut sie es – ähnlich wie die Hummel, die der Legende nach nicht fliegen kann. Lange Zeit dachte man, dass Deep-Learning-Algorithmen, da sie auf statistischer Basis arbeiten, niemals in der Lage wären, die Komplexität von Wörtern zu bewältigen, die voller Mehrdeutigkeiten und Nuancen sind, deren Bedeutung sich je nach Kontext ändert und deren grammatikalische Struktur unglaublich komplex ist. In diesem Fall hat die Technologie die Erwartungen übertroffen: Seit der Einführung von Deep Learning in maschinellen Übersetzungssystemen um das Jahr 2016 und dann mit dem Aufkommen der Transformer-Architektur, die großen Sprachmodellen (LLM) zugrunde liegt, hat KI ihre Fähigkeit unter Beweis gestellt, erfolgreich mit Sprache umzugehen, immer genauer zu übersetzen, zusammenhängende Texte zu verfassen, unsere Fragen zu beantworten usw.

Warum gelingt Deep Learning dort, wo man es für erfolglos hielt? Das versucht Sebastian Goldt, ein deutscher Forscher an der Sissa (International School for Advanced Studies) in Triest, herauszufinden. Nachdem er 2024 eine Förderung des renommierten Europäischen Forschungsrats (ERC) erhalten hat, leitet Goldt nun das achtköpfige Team aus Italien, Deutschland und Frankreich, das in den nächsten fünf Jahren das „Geheimnis“ großer Sprachmodelle lösen muss.

Sebastian Goldt, deutscher Forscher an der Sissa (International School for Advanced Studies) in Triest
Sebastian Goldt, deutscher Forscher an der Sissa (International School for Advanced Studies) in Triest

Warum sollten Deep-Learning-Algorithmen nicht in der Lage sein, die Komplexität von Sprache korrekt zu analysieren?

Seit den 1950er Jahren gibt es eine recht gut etablierte Theorie darüber, was aus Daten gelernt werden kann und was nicht. Im Fall von Sprache ging man davon aus, dass ein Algorithmus erforderlich sei, der speziell darauf ausgelegt ist, Kontext, Bedeutung und grammatische Beziehungen zu verstehen. Neuronale Netze hingegen sind sehr generische Strukturen: Transformatoren enthalten nichts, was speziell für Sprache entwickelt wurde. Sie wissen nicht a priori, was ein Verb oder ein Nomen ist. Sie arbeiten rein statistisch. Jahrzehntelang glaubte man, ein solch generischer Ansatz könne bei Sprache nicht funktionieren. Doch heute zeigt sich, dass er in der Praxis besser funktioniert als speziell für linguistische Zwecke entwickelte Ansätze.

Welche konkreten Schwerpunkte liegen in Ihrer Forschung?

Zunächst wollen wir verstehen, wie grammatische Regeln Texte auf statistischer Ebene beeinflussen. Dazu erstellen wir vereinfachte Sprachmodelle mit präzisen Regeln und untersuchen, wie sich diese in der Wortverteilung widerspiegeln. Zweitens untersuchen wir, wie ein neuronales Netzwerk diese Regelmäßigkeiten allein anhand von Daten erfassen kann, ohne die Regeln der Sprache zu kennen.

Ist es möglich, dass es gar kein Geheimnis gibt, sondern dass alles auf dem sogenannten „Skalierungsgesetz“ beruht, wonach mit zunehmender Größe der neuronalen Netze, der Menge der für das Training verwendeten Daten und der Rechenleistung auch die Fähigkeiten dieser Modelle zunehmen?

Ich denke, der Erfolg dieser Modelle ist größtenteils dem Skalierungsgesetz zu verdanken. Schließlich werden diese Modelle mit praktisch allen online verfügbaren Texten trainiert. Eine riesige Datenmenge. Es gibt jedoch zwei Probleme. Erstens verbrauchen diese Systeme viele Ressourcen. Wenn wir sie nachhaltiger nutzen wollen, müssen wir herausfinden, ob es einen alternativen und effizienteren Weg gibt, ähnliche Ergebnisse zu erzielen. Zweitens gibt es Anzeichen dafür, dass sich die Entwicklung dieser Systeme verlangsamt und das Skalierungsgesetz für Transformatoren an seine Grenzen stößt. Ein besseres Verständnis darüber, wie diese Systeme Sprache nutzen können, könnte uns helfen, beide Hindernisse zu überwinden.

Könnte es uns auch helfen, das Problem der Halluzinationen zu lösen, also der Darstellung falscher oder erfundener Informationen als Tatsachen?

Wir haben im Januar mit der Arbeit an unserem Projekt begonnen und stehen noch ganz am Anfang. Wir hoffen, auch zum Thema Halluzinationen beitragen zu können. Es ist jedoch schwierig: Die Informationen sind in den Modellen sehr komplex verteilt und lassen sich nicht lokalisieren, als wären sie auf einer Festplatte gespeichert. Aus diesen und anderen Gründen ist es nicht leicht zu verstehen, woher eine Halluzination kommt oder wie man sie vermeiden kann. Ich fürchte, sie sind ein untrennbarer Bestandteil von LLMs.

Wird Ihre Arbeit uns auch helfen, etwas über unsere Sprache zu verstehen?

Absolut. Ich bin Physiker, kein Linguist, aber ich denke, der Erfolg dieser Modelle zwingt uns, einige grundlegende Ideen zu überdenken. LLMs haben gezeigt, dass ein Großteil der Sprache statistisch erlernbar ist und dass selbst das, was wir als Beweismittel für Schlussfolgerungen betrachteten, stattdessen durch einfache Wahrscheinlichkeitsvorhersagen erbracht werden kann. Vielleicht lernen wir also auch etwas Neues darüber, was es bedeutet, logisch zu denken und was Sprache wirklich ist.

La Repubblica

La Repubblica

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow