DSGVO und KI — die 3 Stolperfallen

Disclaimer vorweg: Wir sind keine Anwälte und das hier ist keine Rechtsberatung. Wir sind Praktiker, die in jedem KMU-Projekt mit den selben drei DSGVO-Problemen konfrontiert werden — und sehen, dass die offiziellen Compliance-Beratungen oft an den unwichtigen Stellen kleben bleiben, während die wichtigen Punkte übersehen werden.

Wenn ihr KI ernsthaft in eurem Unternehmen einsetzen wollt, holt euch zusätzlich juristische Beratung. Aber lest vorher das hier, dann wisst ihr, was ihr fragen müsst.

Stolperfalle 1: Auftragsverarbeitung wird nicht oder falsch geregelt

Jedes Mal, wenn ihr Daten an OpenAI, Anthropic, Google oder einen anderen LLM-Anbieter schickt, ist das eine Auftragsverarbeitung im Sinne der DSGVO. Wenn diese Daten personenbeziehbar sind — Kundennamen, Mail-Adressen, Telefonnummern, Bestellinformationen — braucht ihr einen Auftragsverarbeitungsvertrag (AVV) mit dem Anbieter.

Was wir in der Praxis sehen:

Unternehmen, die seit 2 Jahren ChatGPT für Kunden-Mails benutzen — ohne AVV.
Unternehmen, die einen AVV haben, aber die EU-Region nicht aktiviert haben (Daten gehen damit weiterhin in die USA).
Unternehmen, die einen AVV mit OpenAI haben, aber nicht mit allen Sub-Prozessoren (Microsoft Azure als Hosting-Layer, weitere).

Was tatsächlich nötig ist

Für OpenAI: API-Zugang über die Plattform (nicht ChatGPT-Web), Data Processing Addendum aktivieren, EU-Region wählen. Für Anthropic: API-Zugang, DPA aktivieren, EU-Region (existiert seit 2025). Für Google: VertexAI mit EU-Region. Für lokale Modelle: keine AVV nötig, weil keine Datenübertragung.

Im Audit prüfen wir das immer als ersten Punkt. Wenn das nicht stimmt, ist alles andere irrelevant.

Stolperfalle 2: US-Datentransfer wird verschwiegen oder verharmlost

Seit dem Schrems-II-Urteil und dem Data Privacy Framework (DPF) ist die rechtliche Lage zumindest klarer geworden — aber nicht problemlos. Der DPF gilt nur für US-Anbieter, die sich zertifiziert haben. OpenAI und Anthropic sind beide DPF-zertifiziert, was den Transfer rechtlich abdeckt. Aber:

Ihr müsst die Zertifizierung in eurer Datenschutzerklärung erwähnen.
Ihr müsst betroffene Personen darüber informieren, dass ihre Daten in die USA gehen.
Ihr müsst dokumentieren, warum dieser Transfer für die Leistungserbringung notwendig ist.

Wer das ignoriert, hat im Zweifelsfall ein Problem, sobald ein Aufsichtsbehörden-Audit kommt oder eine Beschwerde eingereicht wird.

Was wir empfehlen

Wenn ihr es vermeiden könnt, schickt keine personenbezogenen Daten an US-Server. Anonymisierung am Eingang ist oft einfacher als gedacht — Mail-Texte können zusammengefasst werden, ohne Namen mitzuschicken. Telefonnummern können gehashed werden. Wenn ihr es nicht vermeiden könnt, sorgt für saubere DPF-Dokumentation und transparente Kommunikation an die Betroffenen.

Stolperfalle 3: Personenbezug in Embeddings und Trainingsdaten

Das ist der Punkt, an dem die meisten Compliance-Berater aussteigen, weil er technisch komplex ist. Aber er ist real und wird zunehmend wichtig.

Wenn ihr ein RAG-System (Retrieval Augmented Generation) baut und eure Kundendaten in eine Vektor-Datenbank einspeist, entsteht ein neuer Datenbestand. Die Embeddings sind technisch zwar nicht direkt lesbar, aber:

Sie können personenbezogen sein (besonders bei kleinen Datenbeständen, wo eine Re-Identifikation möglich ist).
Sie unterliegen damit dem Auskunfts- und Löschrecht der DSGVO.
Wenn ein Kunde "Vergessen werden" verlangt, müsst ihr nicht nur die Original-Daten löschen, sondern auch die Embeddings.

In den meisten KMU-Setups haben wir Vektor-Datenbanken gesehen, die seit Monaten Daten sammeln, ohne dass jemand jemals einen Löschvorgang implementiert hat. Das ist eine tickende Bombe.

Was wir empfehlen

Vektor-Datenbanken brauchen ein ID-Mapping zurück zur Original-Datenquelle. Bei Löschvorgängen muss die Original-Daten und die zugehörigen Embeddings gelöscht werden — in einem atomaren Schritt. Wir bauen das in jedem RAG-System ein. Es ist nicht schwer, aber es muss von Anfang an mitgedacht werden.

Was die meisten Compliance-Beratungen übersehen

Die offizielle Datenschutz-Welt fokussiert sich gerne auf Cookie-Banner und Datenschutzerklärungen. Das sind wichtige Punkte, aber sie sind nicht die Hauptrisiken bei KI-Systemen. Was wir kaum jemand prüfen sehen:

Prompt-Logs: Viele Tools loggen die kompletten Prompts inklusive aller mitgeschickten Daten. Das sind Datenbestände, die DSGVO-pflichtig sind und nicht "vergessen" werden dürfen.
Fine-Tuning-Daten: Wenn ihr ein Modell mit eigenen Daten fine-tuned (auch auf OpenAI), schickt ihr diese Daten potenziell unwiderruflich an den Anbieter. Bei OpenAI wird Fine-Tuning-Daten nicht zum Training verwendet, bleibt aber gespeichert.
Browser-basierte KI-Tools im Hintergrund: Wenn euer Team ChatGPT-Web oder Claude.ai nutzt, um Kundendaten zu verarbeiten, ist das Schatten-IT mit DSGVO-Risiko. Klare Tool-Policy verhindert das.

Wichtigste Maßnahme: Macht ein Datenfluss-Diagramm. Welche Daten gehen in welche KI-Tools? Welche Anbieter sind involviert? Welche EU-Region, welcher DPF-Status, welche Speicher-Policies? Wer das hat, hat 80% der Compliance-Arbeit erledigt.

Was praktisch hilft

Erstellt ein zentrales Verzeichnis aller KI-Tools im Unternehmen mit den jeweiligen Datenflüssen.
Aktiviert für jeden Anbieter den DPA, die EU-Region und die strengste Datenschutz-Stufe.
Macht eine Datenfluss-Analyse: Was geht raus, was wird gespeichert, was wird gelöscht.
Schreibt eine klare Tool-Policy: Was darf das Team mit Kunden-Daten machen, was nicht.
Bei RAG-Systemen: Löschvorgänge von Anfang an mitdenken.
Holt euch juristische Beratung für die finale Datenschutzerklärung und den AVV-Check.

DSGVO-Check für euren KI-Stack?

Im KI-Audit prüfen wir technisch, wo eure Datenflüsse problematisch sind, und geben konkrete Handlungsempfehlungen. Juristische Bewertung holt ihr separat — aber wir geben euch die Vorlage, die ein Anwalt nur noch absegnet.

Audit anfragen