Wie funktioniert es? (Teil 2): Attention — Was zählt, was nicht
Wie funktioniert ein LLM?
Schritt 2: Warum erkennt das Modell 'Frankreich' als das relevante Wort? Der Attention-Mechanismus — Queries, Keys, Values, Multi-Head Attention.
Learning Material
7 pagesLektion 5 — Wie funktioniert es? (Teil 2): Attention — Was zählt, was nicht
Verstehen statt Staunen: Wie funktioniert ein LLM?
Zurück zu unserem Satz:
„Die Hauptstadt von Frankreich ist ___"
Das Modell hat diesen Satz in sieben Tokens zerlegt und jeden Token in einen hochdimensionalen Vektor — ein Embedding — übersetzt. Jetzt muss es entscheiden, welches Token als nächstes folgt.
Aber welches Token im Eingabesatz ist am wichtigsten für diese Vorhersage? „Frankreich" ist offensichtlich entscheidend. „Hauptstadt" hilft. „von" ist ein Füllwort. „Die" ist der bestimmte Artikel, fast bedeutungslos für die Vorhersage. „ist" zeigt die Satzkonstruktion, aber sagt wenig über den Inhalt.
Das Problem: Dem Modell fehlt, ohne weitere Mechanik, jede Möglichkeit, zwischen wichtigen und unwichtigen Tokens zu unterscheiden. Es würde alle Token-Repräsentationen gleich behandeln — und das würde zu sehr schlechten Vorhersagen führen.
Das Problem löst der Attention-Mechanismus (Aufmerksamkeitsmechanismus).