2.4 KI und Ihre Daten

Modul 2: Wie Daten fließen — Das Ökosystem

Erklärt, wie KI-Systeme personenbezogene Daten beim Training und bei der Inferenz verarbeiten, und beleuchtet datenschutzrechtliche Aspekte für Large Language Models.

1

Learning Material

1 pages

KI und Ihre Daten

Seite 1 von 1

Künstliche Intelligenz hat die Art, wie personenbezogene Daten verarbeitet werden, grundlegend verändert. KI-Systeme sind nicht nur Nutzer von Daten — sie erzeugen neue Formen der Datenverarbeitung, die das bestehende Datenschutzrecht vor erhebliche Herausforderungen stellt.

Wie KI-Systeme Daten verbrauchen: Training

Große KI-Modelle — sogenannte Large Language Models (LLMs) wie ChatGPT (OpenAI), Gemini (Google) oder Claude (Anthropic) — werden auf riesigen Textmengen trainiert. Diese Trainingsdaten enthalten häufig Informationen aus dem öffentlichen Internet: Webseiten, Bücher, Foren, soziale Netzwerke. Dabei können auch personenbezogene Daten in den Trainingsdatensatz gelangen — Namen, E-Mail-Adressen, medizinische Informationen oder persönliche Berichte.

Die Frage, ob das Training auf öffentlich zugänglichen Daten ohne gesonderte Einwilligung zulässig ist, ist rechtlich umstritten. In der EU prüfen Datenschutzbehörden, ob die DSGVO auf diesen Vorgang anwendbar ist und ob ein berechtigtes Interesse als Rechtsgrundlage ausreicht.

Inferenz: Echtzeit-Profiling

Bei der Nutzung eines KI-Systems — z. B. wenn Sie eine Frage in einen Chatbot eingeben — findet sogenannte Inferenz statt: Das Modell verarbeitet Ihre Eingabe und erzeugt eine Antwort. Dabei können die Eingabedaten für Trainingszwecke oder zur Qualitätsverbesserung gespeichert werden, sofern Sie dem nicht widersprechen. Viele KI-Dienste bieten in ihren Datenschutzeinstellungen die Option, die Speicherung von Konversationsverläufen zu deaktivieren.

Modell-Inversionsangriffe

Ein weniger bekanntes Risiko ist der sogenannte Modell-Inversionsangriff: Durch gezielte Anfragen an ein KI-Modell können Angreifer versuchen, Informationen aus den Trainingsdaten zurückzugewinnen. Forscher haben gezeigt, dass LLMs unter bestimmten Umständen Namen, Telefonnummern oder Adressen aus dem Training reproduzieren können (Carlini et al., 2021). Dies stellt ein datenschutzrechtliches Problem dar, wenn sensitive Daten im Training enthalten waren.

Was Nutzer selbst steuern können

Bei führenden LLM-Anbietern (ChatGPT, Gemini, Claude) können Nutzer in den Einstellungen:

  • Die Speicherung des Konversationsverlaufs deaktivieren
  • Gespeicherte Konversationen löschen
  • Die Nutzung von Daten für Modelltraining widersprechen (Opt-out)

DSGVO und der EU AI Act

Die bisherige Art.-29-Datenschutzgruppe (heute: EDPB) hat früh auf die Datenschutzrisiken von KI hingewiesen. Der EU AI Act (2024 in Kraft getreten) ergänzt die DSGVO: Er klassifiziert KI-Systeme nach Risikoklassen und verlangt für Hochrisikoanwendungen (z. B. biometrische Erkennung, KI in Personalentscheidungen) besondere Transparenz- und Dokumentationspflichten.

Praxistipp

Prüfen Sie bei jedem KI-Dienst, den Sie nutzen, die Datenschutzeinstellungen: Wird der Konversationsverlauf gespeichert? Können Daten für das Training genutzt werden? Für einen vertieften Blick auf KI-gestützte Manipulation empfehlen wir den Begleitkurs Kritisches Denken.

2

Flashcards

3

Quiz

Want more?

Sign up for AI tutoring, study plans, exam prep, and more.

Sign up free