learnathome.club

Verstehen statt Staunen: Wie funktioniert ein LLM?

Zurück zu unserem Satz:

„Die Hauptstadt von Frankreich ist ___"

Das Modell hat diesen Satz in sieben Tokens zerlegt und jeden Token in einen hochdimensionalen Vektor — ein Embedding — übersetzt. Jetzt muss es entscheiden, welches Token als nächstes folgt.

Aber welches Token im Eingabesatz ist am wichtigsten für diese Vorhersage? „Frankreich" ist offensichtlich entscheidend. „Hauptstadt" hilft. „von" ist ein Füllwort. „Die" ist der bestimmte Artikel, fast bedeutungslos für die Vorhersage. „ist" zeigt die Satzkonstruktion, aber sagt wenig über den Inhalt.

Das Problem: Dem Modell fehlt, ohne weitere Mechanik, jede Möglichkeit, zwischen wichtigen und unwichtigen Tokens zu unterscheiden. Es würde alle Token-Repräsentationen gleich behandeln — und das würde zu sehr schlechten Vorhersagen führen.

Das Problem löst der Attention-Mechanismus (Aufmerksamkeitsmechanismus).

Wie funktioniert es? (Teil 2): Attention — Was zählt, was nicht

Learning Material

Lektion 5 — Wie funktioniert es? (Teil 2): Attention — Was zählt, was nicht

Want more?