Wie funktioniert es? (Teil 3): Wissen aus Statistik
Wie funktioniert ein LLM?
Schritt 3: Woher 'weiß' das Modell, dass Paris die Hauptstadt ist? Training, RLHF, Emergenz — vollständige Erklärung des Anker-Beispiels.
Learning Material
6 pagesLektion 6 — Wie funktioniert es? (Teil 3): Wissen aus Statistik
Verstehen statt Staunen: Wie funktioniert ein LLM?
Du weißt jetzt, was Tokens sind, was Embeddings sind, wie Attention entscheidet, welche Tokens relevant sind, und wie das Modell diese Information durch viele Schichten transformiert. Das ist der Mechanismus.
Eine Frage fehlt noch. Sie ist die interessanteste.
Woher weiß das Modell, dass Paris die Hauptstadt von Frankreich ist?
Es hat das nie direkt gelernt. Niemand hat dem Modell eine Liste mit „Hauptstadt von Frankreich = Paris" gegeben. Es wurde ausschließlich darauf trainiert, das nächste Token vorherzusagen. Das ist alles. Und trotzdem — wenn du es fragst, antwortet es korrekt.
Wie entsteht Wissen aus der Aufgabe des nächsten Worts?