2.4 KI und Ihre Daten
Modul 2: Wie Daten fließen — Das Ökosystem
Erklärt, wie KI-Systeme personenbezogene Daten beim Training und bei der Inferenz verarbeiten, und beleuchtet datenschutzrechtliche Aspekte für Large Language Models.
Learning Material
1 pagesKI und Ihre Daten
Künstliche Intelligenz hat die Art, wie personenbezogene Daten verarbeitet werden, grundlegend verändert. KI-Systeme sind nicht nur Nutzer von Daten — sie erzeugen neue Formen der Datenverarbeitung, die das bestehende Datenschutzrecht vor erhebliche Herausforderungen stellt.
Wie KI-Systeme Daten verbrauchen: Training
Große KI-Modelle — sogenannte Large Language Models (LLMs) wie ChatGPT (OpenAI), Gemini (Google) oder Claude (Anthropic) — werden auf riesigen Textmengen trainiert. Diese Trainingsdaten enthalten häufig Informationen aus dem öffentlichen Internet: Webseiten, Bücher, Foren, soziale Netzwerke. Dabei können auch personenbezogene Daten in den Trainingsdatensatz gelangen — Namen, E-Mail-Adressen, medizinische Informationen oder persönliche Berichte.
Die Frage, ob das Training auf öffentlich zugänglichen Daten ohne gesonderte Einwilligung zulässig ist, ist rechtlich umstritten. In der EU prüfen Datenschutzbehörden, ob die DSGVO auf diesen Vorgang anwendbar ist und ob ein berechtigtes Interesse als Rechtsgrundlage ausreicht.
Inferenz: Echtzeit-Profiling
Bei der Nutzung eines KI-Systems — z. B. wenn Sie eine Frage in einen Chatbot eingeben — findet sogenannte Inferenz statt: Das Modell verarbeitet Ihre Eingabe und erzeugt eine Antwort. Dabei können die Eingabedaten für Trainingszwecke oder zur Qualitätsverbesserung gespeichert werden, sofern Sie dem nicht widersprechen. Viele KI-Dienste bieten in ihren Datenschutzeinstellungen die Option, die Speicherung von Konversationsverläufen zu deaktivieren.
Modell-Inversionsangriffe
Ein weniger bekanntes Risiko ist der sogenannte Modell-Inversionsangriff: Durch gezielte Anfragen an ein KI-Modell können Angreifer versuchen, Informationen aus den Trainingsdaten zurückzugewinnen. Forscher haben gezeigt, dass LLMs unter bestimmten Umständen Namen, Telefonnummern oder Adressen aus dem Training reproduzieren können (Carlini et al., 2021). Dies stellt ein datenschutzrechtliches Problem dar, wenn sensitive Daten im Training enthalten waren.
Was Nutzer selbst steuern können
Bei führenden LLM-Anbietern (ChatGPT, Gemini, Claude) können Nutzer in den Einstellungen:
- Die Speicherung des Konversationsverlaufs deaktivieren
- Gespeicherte Konversationen löschen
- Die Nutzung von Daten für Modelltraining widersprechen (Opt-out)
DSGVO und der EU AI Act
Die bisherige Art.-29-Datenschutzgruppe (heute: EDPB) hat früh auf die Datenschutzrisiken von KI hingewiesen. Der EU AI Act (2024 in Kraft getreten) ergänzt die DSGVO: Er klassifiziert KI-Systeme nach Risikoklassen und verlangt für Hochrisikoanwendungen (z. B. biometrische Erkennung, KI in Personalentscheidungen) besondere Transparenz- und Dokumentationspflichten.
Praxistipp
Prüfen Sie bei jedem KI-Dienst, den Sie nutzen, die Datenschutzeinstellungen: Wird der Konversationsverlauf gespeichert? Können Daten für das Training genutzt werden? Für einen vertieften Blick auf KI-gestützte Manipulation empfehlen wir den Begleitkurs Kritisches Denken.