Penkov, Markov & Partners

Artikel

Home
Insights
Artikel
ChatGPT und Datenschutz

09-02-2024

ChatGPT und Datenschutz

Mit über 100 Millionen monatlichen Nutzern hat sich ChatGPT zur am schnellsten wachsenden Verbraucher-App weltweit entwickelt. Trotz seiner Beliebtheit und weit verbreiteten Nutzung in unserem Umfeld wurden Bedenken hinsichtlich des ausreichenden Schutzes der Daten europäischer Nutzer geäußert, auf deren Grundlage der Chatbot trainiert wurde und weiterhin trainiert wird, gemäß den Anforderungen der Datenschutz-Grundverordnung (Verordnung /EU/2016/679, kurz „DSGVO“).

Befürchtungen bezüglich der rechtmäßigen Sammlung persönlicher Informationen aus dem Internet (mittels der sogenannten „Web/Data Scraping“-Technik), dem Mangel an Transparenz darüber, wie diese verarbeitet werden, usw., führten sogar zu einem vorübergehenden Verbot der App in Italien durch den lokalen Regulator. Letzterer forderte mehrere Maßnahmen von OpenAI (der von Microsoft unterstützten Organisation hinter der App), bevor die App im Land wieder verwendet werden durfte. Nach dieser Entscheidung der italienischen Datenschutzbehörde kündigten eine Reihe weiterer führender europäischer Regulierungsbehörden an, dass sie hinsichtlich der Einhaltung der DSGVO durch die App aufmerksam sein würden. Dies führte schließlich dazu, dass das Europäische Datenschutzgremium eine spezifische Task Force zur Zusammenarbeit zwischen den DPAs einrichtete, um mögliche Maßnahmen gegen OpenAI zu koordinieren.

ChatGPT - Die zukünftige Software-Revolution?

ChatGPT ist eine Software der amerikanischen Firma OpenAI, die es Benutzern ermöglicht, mit einem von künstlicher Intelligenz angetriebenen Chatbot zu kommunizieren. Im Rahmen dieser Kommunikation kann der Roboter auf eine Anweisung, einen Befehl und/oder eine Frage (den sogenannten „Prompt“) mit fertigem Textinhalt (Antworten) reagieren. Diese Art von Software, auch „großes Lernmodell“ genannt, wird durch künstliche Intelligenz angetrieben und basiert auf der Methode des „Deep Learning“. Im Wesentlichen wird sie im Entwicklungsprozess mit riesigen Datenmengen aus dem Internet „gefüttert“ (aus Webpublikationen und Blogs, Informationen aus sozialen Medien, digitalen Büchern und Artikeln usw.), welche sie verarbeitet und sich dadurch selbst beibringt, wie einzelne Wörter in einem bestimmten Kontext (Satz, Absatz) zusammenpassen.

2. Große Sprachmodelle und der Konflikt mit der aktuellen Gesetzgebung

Große Sprachmodelle wie ChatGPT sammeln und interpretieren Millionen von Texten und Daten aus dem Internet, unabhängig von ihrer Quelle, Relevanz und Genauigkeit, und arbeiten mit sogenannten „Big Data“. Ein großer Teil dieser Informationen bezieht sich auch auf bestimmte Personen, d. h. sie stellen persönliche Daten dar. Diese Tatsache wird von OpenAI in seinen Datenschutzrichtlinien und anderen Informationsbroschüren, die auf seiner Website veröffentlicht sind, ausdrücklich anerkannt.

Darüber hinaus speichert und verwendet OpenAI neben den Daten, die in der anfänglichen Trainingsphase des Chatbots verwendet wurden, auch die Informationen, die ChatGPT im Rahmen der Kommunikation mit Benutzern in Form eines „Chatverlaufs“ erhalten kann. Es wird argumentiert, dass diese Informationen anschließend verwendet werden, um die Algorithmen von OpenAI zu verfeinern, ohne kopiert oder in Datenbanken gespeichert zu werden.

Trotz der Maßnahmen, von denen OpenAI behauptet, dass sie angewendet werden, um das „persönliche Element“ bei der Verarbeitung der Informationen zu minimieren, offenbart der Ansatz, der bei der Sammlung der Informationen zunächst verfolgt wird, viele regulatorische Probleme, die sich aus der DSGVO ergeben, welche entlang mehrerer Linien zusammengefasst werden können:

(a) Die rechtliche Grundlage für die Verarbeitung personenbezogener Daten

Gemäß Art. 6 Abs. 1 der DSGVO ist die Verarbeitung personenbezogener Daten nur rechtmäßig, wenn es eine rechtliche Grundlage für diese Verarbeitung im Sinne der DSGVO gibt. OpenAI stützt sich vollständig auf sein „berechtigtes Interesse“ (Art. 6 Abs. 1 Buchstabe „f“ DSGVO), personenbezogene Daten Dritter aus dem Internet für die Zwecke der Entwicklung, Verbesserung und/oder Promotion seiner Chatbots zu sammeln.

Diese rechtliche Grundlage bleibt jedoch in der Praxis die umstrittenste und in diesem Sinne riskanteste, da ihre Anwendung immer die Berücksichtigung (in einem vorläufigen Stadium) der Rechte und Interessen derjenigen Datensubjekte erfordert, die von der Verarbeitung betroffen sein werden. Sie erfordert das Vorhandensein eines Abwägungstests, auch bekannt als Bewertung des berechtigten Interesses, den OpenAI nach eigenen Angaben zunächst erstellt hat. Dies sollte die Überlegenheit der Interessen des Softwareentwicklers über die der betroffenen Personen rechtfertigen und demonstrieren.

Trotz der Einführung der Möglichkeit durch OpenAI für jeden Benutzer, der Verarbeitung seiner persönlichen Daten zu widersprechen, das sogenannte „Opt-Out“-Formular, garantiert dies nicht die Rechtmäßigkeit des angenommenen Ansatzes in der Ausbildung von Chatbots und sollte von Anfang an untersucht werden.

Obwohl OpenAI keine personenbezogenen Daten Dritter verkauft oder für Direktmarketing verwendet, ist es für viele Datenschutzexperten äußerst schwierig vorstellbar, dass das Interesse von OpenAI an der Verwendung der betreffenden Daten das der betroffenen Personen überwiegen könnte, ohne dass diese ihre Zustimmung erteilt haben. Es wird kaum verteidigt, dass Datensubjekte vernünftigerweise erwarten können, dass ihre personenbezogenen Daten, weil sie öffentlich gemacht wurden, für jeden Zweck (einschließlich KI-Training) verwendet werden, zudem ohne im Voraus darüber informiert zu werden.

Dies ist genau die Frage, die auf übernationaler Ebene unter den europäischen Regulierungsbehörden, die in der oben genannten Task Force organisiert sind, erforscht werden soll. Zu diesem Zeitpunkt ist bekannt, dass einige von ihnen (in Polen zum Beispiel) bereits Beschwerden im Zusammenhang mit der unrechtmäßigen Verarbeitung personenbezogener Daten erhalten haben.

(b) Transparenz bei der Datenverarbeitung

Jede Verarbeitung, unabhängig von der rechtlichen Grundlage, auf der sie durchgeführt wird (berechtigtes Interesse oder Zustimmung), muss für das Datensubjekt transparent sein. Dies ist auch eine Anforderung von Artikel 12 der DSGVO, der vorschreibt, dass Datensubjekten explizit Informationen über die Verarbeitung ihrer persönlichen Informationen in einer zeitnahen, verständlichen und leicht zugänglichen Form zur Verfügung gestellt werden. Im Fall der Datenverarbeitung, die von OpenAI zum Zweck des Trainings von Chatbots durchgeführt wird, werden die betroffenen Personen nicht rechtzeitig und in der Praxis überhaupt nicht informiert.

(c) Qualität der verarbeiteten Daten

Wie angedeutet, umfassen die regulatorischen Herausforderungen für große Sprachmodelle wie ChatGPT auch die „Qualität“ (ihre Wahrhaftigkeit, Genauigkeit und Zuverlässigkeit) der unkontrolliert aus dem Internet zugegriffenen verarbeiteten Daten.

Aufgrund der Besonderheiten des Lernprozesses selbst und der Quellen, aus denen persönliche Daten „heruntergeladen“ werden, neigt jedes der großen Sprachmodelle dazu, zu „halluzinieren“, d.h., Fakten zu erfinden oder sich bei der Überprüfung bestimmter Fakten zu verwirren. Dieses Phänomen birgt jedoch Risiken in Bezug auf das anwendbare Recht, insoweit es möglich ist, eine Person falsch darzustellen, wenn zum Beispiel innerhalb eines ChatGPT-Chats nach einer biografischen Referenz gefragt wird, ohne dass die Person zuvor Einzelheiten über sich selbst veröffentlicht hat. Dies war auch der Fall bei dem Bürgermeister aus Australien, der zur ersten Verleumdungsklage gegen OpenAI führte. Obwohl dies mit der Verwendung anderer KI-basierter Software zusammenhängt, gab es kürzlich auch einen ähnlichen Vorfall in Spanien, bei dem unwahre Nacktfotos von Minderjährigen erzeugt wurden.

Es ist ein Verstoß gegen das anwendbare Recht, Daten ungenau zu pflegen, umso mehr, wenn sie irreführend sind oder sogar eine diffamierende Aussage über die Person enthalten. Darüber hinaus verpflichtet die DSGVO die Datenverantwortlichen, soweit machbar, aktive Schritte zu unternehmen, um die Daten so aktuell und genau wie möglich zu halten. Tatsächlich bietet OpenAI seinen Nutzern derzeit die Möglichkeit, über ein separates Formular auf der Website der Organisation die Korrektur ungenauer persönlicher Daten über sie zu beantragen, aber diese Umstände befreien den Verantwortlichen nicht von der Haftung für den Fall, dass nachgewiesen wird, dass diese persönlichen Daten von Anfang an ungenau gesammelt wurden oder dass der Chatbot sie aufgrund eines Fehlers ungenau generiert hat. Darüber hinaus ist es technologisch schwierig, wenn nicht unmöglich, Informationen, die bereits im Internet veröffentlicht wurden, zu entfernen.

3. Schlussfolgerung und Empfehlungen für Organisationen, die große Sprachmodelle verwenden

In einer sich schnell entwickelnden Welt ist es unvermeidlich, künstliche Intelligenz zu nutzen, angesichts ihres erwarteten Nutzens für die Gesellschaft. Aber aufgrund der strengen regulatorischen Maßnahmen der Datenschutzbehörden sollte ChatGPT mit Vorsicht verwendet werden, insbesondere bis seine Sicherheit einstimmig auf europäischer Ebene festgestellt wurde. In diesem Zusammenhang ist es ratsam, dass bei der Einreichung von Informationen zur Nutzung durch ChatGPT oder andere Sprachmodelle persönliche Daten immer gelöscht werden (Namen, eindeutige Kennzeichnungen, Adressen, andere Umstände, die Personen identifizieren können), bzw. die Werkzeuge zu verwenden, um der Verarbeitung von Daten zu widersprechen und die Speicherung von Informationen aus vorherigen Chat-Korrespondenzen zu begrenzen. Neben persönlichen Daten sollten Unternehmen auch sorgfältig überwachen, ob ihre Mitarbeiter Informationen an ChatGPT weitergeben (normalerweise zum Zweck der Vorbereitung eines Arbeitsmemos, einer Präsentationszusammenfassung oder einer Projekt-E-Mail), die Geschäftsgeheimnisse, Know-how und andere sensiblere urheberrechtlich geschützte Informationen enthalten können.

Andernfalls könnten diese Informationen zu einem späteren Zeitpunkt „durchsickern“, zufällig oder nicht, in Form einer von ChatGPT generierten Textantwort, die unrechtmäßig Daten über ein Unternehmen, seine Mitarbeiter (Datensubjekte) preisgibt, was sowohl zu einem Verstoß gegen die DSGVO als auch zum Eintritt von Schäden führen könnte.

Tätigkeitsfelder: