Trends Magazin

iStock.com/Orbon Alija

Datenschutzrechtliche Vorgaben: Data Science unter Anwendung von KI

Entwicklung, Betrieb und Nutzung von KI fallen in den Anwendungsbereich der DatenschutzGrundverordnung (DSGVO), soweit personenbezogene Daten nach Art. 4 Nr. 1 DSGVO verarbeitet werden. Hierbei handelt es sich um alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen. Eine Person gilt dann als identifizierbar, wenn sie direkt oder indirekt identifziert werden kann, insbesondere mittels Zuordnung zu einer Kennung wie einem Namen, einer Kennnummer, Standortdaten, einer Online-Kennung oder einem oder mehreren besonderen Merkmalen, die Ausdruck der physischen, physiologischen, genetischen, psychischen, wirtschaftlichen, kulturellen oder sozialen Identität sind.

Pseudonyme Daten i. S. d. Art. 4 Nr. 5 DSGVO zeichnen sich dadurch aus, dass eine Zuordnung zu einer spezifischen betroffenen Person nur über zusätzliche Informationen möglich ist. Diese müssen gesondert aufbewahrt werden, und technische und organisatorische Maßnahmen müssen gewährleisten, dass eine Zuordnung zu einer identifizierbaren natürlichen Person nicht erfolgt. Die Verarbeitung pseudonymer Daten unterliegt grundsätzlich ebenfalls der DSGVO.

Verständnis von Pseudonymisierung und Anonymisierung
Ist eine Identifizierung der betroffenen Daten ausgeschlossen, liegen also anonyme Daten vor, findet die DS-GVO keine Anwendung (vgl. Erwägungsgrund 26 der DS-GVO). Konsequenterweise sind die Begriffe anonyme Daten bzw. Anonymisierung in der DS-GVO nicht definiert.

Nachfolgendes Beispiel verdeutlicht das Verständnis von Pseudonymisierung und Anonymisierung:

Offensichtlich enthält » 1 personenbezogene Daten. Wird wie in » 2 der Name durch eine eindeutige Nummer ersetzt und die Zuordnung der eindeutigen Nummer zu Klartextnamen separat aufbewahrt, handelt es sich um pseudonyme Daten. Über die Zuordnungstabelle kann die ursprüngliche Information, z. B. die Arbeitgeber der betroffenen Personen, wiederhergestellt werden.

Ein einfacher Ansatz zur Anonymisierung besteht darin, wie in » 3 dargestellt, die identifizierenden Attribute zu entfernen. Sofern Geburtstag, Geschlecht und Postleitzahl der betroffenen Personen bekannt sind, ist allerdings mit hoher Wahrscheinlichkeit eine Re-Identifizierung und damit ein Rückschluss auf den Arbeitgeber möglich. Geburtstag, Geschlecht und Postleitzahl bilden damit einen Quasi-Identifikator.

Um dies zu verhindern, können die zu Quasi-Identifikatoren gehörenden Daten zu Gruppen mit gleichem Informationsgehalt zusammengefasst werden. Möglichkeiten hierzu umfassen das Hinzufügen von Dummy-Datensätzen, das Unterdrücken von Informationen, das Vertauschen und die Verallgemeinerung von Daten. Wenn anschließend alle durch die Quasi-Identifikatoren bestimmbaren Gruppen mindestens k Elemente enthalten, liegt eine k-Anonymität vor. Die Wahrscheinlichkeit der Identifizierung liegt dann bei 1/k. Ein höherer k-Wert bedeutet damit einen höheren Anonymitätsgrad.

Im vorliegenden Beispiel kann durch Reduzierung des Geburtstags auf das Geburtsjahr, Entfernen der Information zum Geschlecht und das Kürzen der Postleitzahl um die letzten 1 bis 2 Ziffern eine 2-Anonymität hergestellt werden. Bei genauerer Betrachtung fällt aber auf, dass für Geburtsjahr = 1981 und Postleitzahl = 511?? in beiden Fällen der gleiche Arbeitgeber F hinterlegt ist. Derartige Homogenitätsangriffe können die Anonymisierung aufheben. Ebenfalls ist zu berücksichtigen, dass durch spezifisches Hintergrundwissen (z. B.: die 1976 geborene männliche Person aus dem Postleitzahlenbereich 5193? arbeitet nicht bei Arbeitgeber D) unter Umständen Rückschlüsse auf das konkrete Attribut (hier: Arbeitgeber ist E) möglich werden. Homogenitätsangriffe werden erschwert, wenn für eine k-anonymisierte Tabelle sichergestellt ist, dass sie aus verschiedenen Datengruppen besteht, die alle mindestens l „gut repräsentierte Werte“ enthalten. In diesem Fall wird die Tabelle als l-divers bezeichnet.

Es gibt mehrere Möglichkeiten, „gut repräsentierte Werte“ zu erreichen. Eine besteht darin, das sensible Attribut unter (l-1) Attributen zu „verstecken“.

Einfache Anonymisierungsmechanismen kommen oft an ihre Grenzen
Welche Werte für k und l mindestens gewählt werden müssen, damit auch im datenschutzrechtlichen Sinn eine Anonymisierung vorliegt, ist im Einzelfall unter Berücksichtigung des Risikos für die Rechte und Freiheiten der betroffenen Personen zu bestimmen. In vielen Fällen kommen einfache Anonymisierungsmechanismen dabei an ihre Grenzen. Ein Ausweg kann darin bestehen, wie im Differential-Privacy-Ansatz jeden einzelnen Datensatz zu „verrauschen“, idealerweise bereits bei der Erhebung.

Diese Ungenauigkeiten können aus einer statistischen Auswertung in einem gewissen Rahmen wieder herausgerechnet werden. Sollte jedoch ein Datensatz nachträglich einer konkreten Person zugeordnet werden können, unterliegen die einzelnen Attribute weiterhin der Verrauschung, sodass ein Rückschluss auf die Person nur eingeschränkt möglich ist. Bei geeigneter Konzeption von Erhebung und Verrauschung der Attribute kann die betroffene Person mindestens glaubhaft abstreiten, eine Aussage getätigt zu haben.

Ob der Vorgang der Anonymisierung selbst der DS-GVO unterliegt, ist umstritten. Höchstrichterliche Rechtsprechung fehlt. Aufgrund des weiten Verständnisses des Verarbeitungsbegriffs und der nicht abschließenden Aufzählung von Beispielen in Art. 4 Nr. 2 DS-GVO könnte die Anonymisierung als eine der DS-GVO unterfallende Verarbeitung zu verstehen sein. Die Anonymisierung stellt zwar, eine die Risiken für die betroffene Person, reduzierende Maßnahme dar (vgl. Art. 5 Abs. 1 lit. e DS-GVO, 25 Abs. 1 DS-GVO). So ist z. B. auch bei einer zweckändernden Anonymisierung im Rahmen des Art. 6 Abs. 4 DS-GVO zu berücksichtigen, dass die Daten danach nicht mehr personenbezogen sind.

Würde die Anonymisierung aber als keine der DS-GVO unterfallende Verarbeitung bewertet, könnte dies dem zentralen Verbotsprinzip der DS-GVO zuwiderlaufen. Auch würde diese Bewertung den Fällen nicht gerecht, in denen die betroffene Person ebenso wie bei der Löschung und Vernichtung der Daten schutzwürdige Interessen hat, dass ihre Daten erhalten bleiben (vgl. auch Art. 18 DS-GVO). Weiterhin gilt zu bedenken, dass der Personenbezug anonymisierter Daten in Abhängigkeit fortschreitender technischer Entwicklung wiederhergestellt werden kann.

Anforderungen an die Verarbeitung personenbezogener Daten
Bei der Verarbeitung personenbezogener Daten sind insbesondere folgende Aspekte zu beachten: Die Gewährleistung der Rechtmäßigkeit der Verarbeitung obliegt dem Verantwortlichen im Sinne des Art. 4 Nr. 7 DS-GVO. Entscheidend ist, wer über die Zwecke und Mittel der Datenverarbeitung entscheidet. Beim Einsatz von KI kann zwischen dem Entwickler der KI-Anwendung, dem Dienstleister bzw. Hersteller des KI-Programms, dem Unternehmen, das die KI auf den Markt bringt, sowie dem Betreiber der KI-Anwendung unterschieden werden.

Auch wenn KI-Anwendungen mittels selbstlernender Algorithmen eigenständige Lösungen für noch unbekannte Probleme finden, verbleibt die datenschutzrechtliche Verantwortung bei der Stelle, die sich für den Einsatz der KI im eigenen organisatorischen Hoheitsbereich entscheidet. Die DS-GVO unterscheidet zwischen eigenständig Verantwortlichen, gemeinsam für die Verarbeitung Verantwortlichen (Art. 26 DS-GVO) und Auftragsverarbeitern (Art. 28 DS-GVO).

Jede Verarbeitung personenbezogener Daten bedarf einer Rechtsgrundlage nach Art. 6 Abs. 1 S. 1 DS-GVO; bei besonderen Datenkategorien ist Art. 9 DS-GVO zu beachten. In der Praxis kommen für die Entwicklung und den Einsatz von KI insbesondere die Einwilligung gemäß Art. 6 Abs. 1 S. 1 lit. a DS-GVO, die Vertragserfüllung gemäß Art. 6 Abs. 1 S. 1 lit. b DS-GVO und die berechtigten Interessen gemäß Art. 6 Abs. 1 S. 1 lit. f DS-GVO in Betracht. Sind Daten besonderer Kategorien betroffen, ist eine Datenverarbeitung nur bei Vorliegen einer der in Art. 9 Abs. 2 DS-GVO aufgelisteten Ausnahmen möglich.

Für Forschungszwecke eröffnet Art. 9 Abs. 2 lit. j DS-GVO in Verbindung mit nationalen Normen, wie z. B. § 27 Abs. 1 BDSG, den Weg zur erforderlichen Abwägungsentscheidung. Im Übrigen stellt die Einwilligung nach Art. 9 Abs. 2 lit. a DS-GVO die wesentliche Rechtsgrundlage für die Verarbeitung besonderer Datenkategorien bei der Entwicklung und dem Einsatz von KI dar. Werden ursprünglich zu einem anderen Zweck erhobene Daten im Nachhinein für KI verwendet, und erfolgt die neue Verarbeitung weder aufgrund einer Einwilligung noch aufgrund einer Rechtsgrundlage nach Unionsrecht oder mitgliedstaatlichem Recht aufgrund Art. 23 DSGVO, ist ein Kompatibilitätstest nach Art. 6 Abs. 4 DSGVO erforderlich. Der Verantwortliche muss die datenschutzrechtlichen Grundprinzipien nach Art. 5 DSGVO beachten und die damit korrespondierenden Informationspflichten nach Art. 12, 13, 14 DSGVO erfüllen. Für KI stellt neben dem Grundsatz der Datenminimierung (Art. 5 Abs. 1lit. c DSGVO) insbesondere das Erfordernis der strikten Zweckgebundenheit der Verarbeitungstätigkeit (Art. 5 Abs. 1 lit. b DSGVO) eine besondere Herausforderung dar.

Bei der KI sind zum Zeitpunkt der erstmaligen Erhebung der Daten weder Korrelationen noch genaue Datenverknüpfungen bekannt. Erforderlich ist, dass bei KI-Anwendungen die Erwartungen der verschiedenen Beteiligten eindeutig beschrieben werden und inhaltlich festgelegt wird, welche Diskriminierungen im Sinne negativer Unterscheidungen als rechtlich nicht erlaubt gelten und sich auch nicht auf Entscheidungen und Prognosen des KI-ISystems auswirken dürfen.

Grundsatz der Datenminimierung ist zu berücksichtigen
Sofern KI-Anwendungen und deren Auswirkungen zu einer geringen Betroff enheit der von der Datenverarbeitung betroffenen Personen führen, kann dies, auch wegen der für die Zukunft der Wirtschaft zugleich entscheidenden Bedeutung der KI, grundsätzlich eine weitere Zweckformulierung rechtfertigen. Auch dann ist aber der Grundsatz der Datenminimierung zu berücksichtigen und die Speicherung auf das für den Zweck notwendige Maß zu beschränken.

Die Prüfung der Erforderlichkeit kann ergeben, dass die Verarbeitung vollständig anonymer Daten zur Erreichung des legitimen Zwecks ausreicht. Beim Einsatz von KI ist – auch im eigenen Interesse des Verantwortlichen – Transparenz essenziell, um die Nachvollziehbarkeit von Entscheidungen gewährleisten zu können. Explainable Artifi cial Intelligence stellt dabei ein aktuelles und großes Forschungsfeld dar.

Eine Herausforderung stellen die Betroffenenrechte (Art. 15 ff . DSGVO) dar. Besondere Fragen resultieren aus dem Recht auf Löschung, insbesondere wegen der Möglichkeit zum Widerspruch bei Verarbeitungen aufgrund Art. 6 Abs. 1 S. 1 lit. f DSGVO (Art. 21 DSGVO), wegen der Möglichkeit des Widerspruchs nach Art. 21 Abs. 6 DSGVO (wissenschaftliche Forschungszwecke/Statistik) und der Widerrufl ichkeit der Einwilligung (Art. 7 Abs. 3 DSGVO). Für privilegierte Verarbeitungssituationen bestehen nach Art. 89 Abs. 2 DSGVO Ausnahmen.

Auch sind die Vorgaben des Art. 22 DSGVO zur automatisierten Entscheidungsfindung zu beachten. Diese Forderung nach Intervenierbarkeit deckt sich mit vielen Praxiserfahrungen: Beispielsweise führte die Verwendung von, im Nachhinein betrachtet, ungeeigneten Trainingsdaten zu einer systematischen Benachteiligung von Frauen in einem Bewerbungsverfahren.

Aufgrund der potenziell mit dem Einsatz von KI verbundenen Risiken ist die Erforderlichkeit einer DatenschutzFolgenabschätzung (DSFA, Art. 35 DSGVO) zu prüfen. Bei dieser Prüfung ist unter anderem zu berücksichtigen, ob die vorgesehene Art der Anonymisierung tatsächlich geeignet ist, um den Personenbezug dauerhaft aufzuheben, welche Schäden andernfalls eintreten und welche Konsequenzen sich aus fehlerhaften Entscheidungen ergeben können.

Fazit
Data Science unter Anwendung von KI wirft, wie jede technologische Neuentwicklung, eine Vielzahl von Fragen im datenschutzrechtlichen Kontext auf. Das Prinzip der Technikneutralität (Erwägungsgrund 15 S.1 der DS-GVO) und der Anspruch der DS-GVO, vollumfänglich sämtliche Verarbeitungen personenbezogener Daten zu regeln, lassen sich mit den Hausforderungen der Digitalisierung durch eine diff erenzierte Betrachtung in Einklang bringen.

 

Autoren



Dr. Andrea Stubbe arbeitet als Referentin bei der Landesbeauftragten für Datenschutz und Informationsfreiheit NordrheinWestfalen (LDI NRW).

 

Dominik Lamp ist ebenfalls als Referent bei der LDI NRW tätig.

 

Stichworte

Verwandte Artikel

Anzeige

Lexikoneinträge