09-02-2024
ChatGPT и защита на личните данни

Над 100 милиона месечни потребители превърнаха ChatGPT в най-бързо развиращото се потребителско приложение в света. Въпреки неговата популярност и голямо приложение в заобикалящата ни среда се породиха съмнения дали данните на европейските потребители, въз основа на които чатботът е обучаван и продължава да се обучава, са достатъчно защитени съобразно изискванията на Общия регламент относно защита на  данните (Регламент /ЕС/ 2016/679, за по-кратко „ОРЗД“).

 

 

Страховете свързани със законосъобразното събиране на лична информация от интернет (посредством т.нар. техника на „web/data scraping“), липсата на прозрачност относно начина на нейната обработка и др., доведоха дори до временна забрана на приложението в Италия от местния регулатор. Последният изиска редица мерки да бъдат предприети от OpenAI (стартъпа, стоящ зад приложението) преди да бъде допуснато приложението отново за ползване в страната. Непосредствено след това решение на италианския надзорен орган, редица други водещи европейски регулатори обявиха, че ще следят изкъсо съответствието на приложението с ОРЗД. Стигна се в крайна сметка до това, и че Европейският борд по защита на данните създаде оперативна група (task force) по сътрудничество между регулаторите, която да координира евентуални действия срещу OpenAI.

 

 

1. ChatGPT същността на софтуера на бъдещето?

 

 

ChatGPT е софтуер на американската компания OpenAI, който позволява на потребителите да общуват с чатбот, задействан от изкуствен интелект. В рамките на тази кореспонденция, при зададена инструкция, команда и/или въпрос (т.нар. „prompt“) роботът е в състояние да генерира готово текстово съдържание (отговор), включително таблици. Този тип софтуер, нар. още „large learning model”, е задействан от изкуствен интелект и е базиран на метода на „deep learning“. Специфичен е с това, че в процеса на разработването му бива „захранен“ с огромни масиви от данни от интернет пространството (от уебпубликации и блогове, информация от социални мрежи, дигитални книги и пр.), които той преработва („чете“), като се самообучава да разпознава как отделни думи се подреждат в определен контекст (изречение, параграф), заедно с други думи.

 

 

2. Езиковите модели и конфликтът с действащото законодателство

 

 

Езиковите модели като ChatGPT, в хода на своето обучение, събират и интерпретират милиони текстове и данни от интернет, независимо от техния източник, актуалността и точността им, като работят с т.нар. “big data”. Огромен дял от тази информация се отнася и до определени физически лица, т.е. представлява лични данни. Това обстоятелство се признава изрично и от OpenAI в неговите политики за поверителност и други информационни брошури, качени на уебсайта му.

 

 

В допълнение, освен данните, използвани в началния етап на обучението на чатбота, OpenAI съхранява и използва информацията, която ChatGPT може да получи и в рамките на комуникацията с потребителите под формата на „chat history“. Тази информация, твърди се, впоследствие бива използвана, за да бъдат усъвършенствани алгоритмите на OpenAI, без да бъде копирана или запазвана в бази данни.

 

 

Въпреки мерките, които OpenAI посочва, че прилага за минимизиране на „личния елемент“ при обработката на информацията, поначало предприетият подход при събирането ѝ, разкрива множество регулаторни проблеми произтичащи от ОРЗД, които могат да бъдат обобщени в няколко насоки:

 

 

а) Правното основание за обработка на лични данни       

 

 

Според чл. 6, пар. 1-ви от ОРЗД обработката на лични данни е законосъобразна, само когато е налице законово основание за тази обработка по смисъла на ОРЗД. OpenAI изцяло се позовава на своя „легитимен интерес“ (чл. 6, пар. 1, б. „е“ от ОРЗД) да събира от интернет лични данни на трети лица за разработката, подобряването и/или популяризирането своите чатботове.

 

 

Това правно основание в практиката обаче остава най-спорното и в този смисъл най-рисковото, доколкото прилагането му налага винаги да се съобразяват (на предварителен етап) правата и интересите на тези субекти на данните, които ще бъдат засегнати от обработката. Изисква се съществуването на балансиращ тест, известен още и като оценка на въздействието („legitimate interest impact assessment“), за която OpenAI твърди, че е изначало подготвило. Същата следва да обоснове и докаже преимущество на интересите на разработчика на софтуера пред тези на засегнатите лица.

 

 

Въпреки въвеждането на възможност от OpenAI всеки потребител да подаде възражение срещу обработката на неговите личните данни, т.н. ,,opt-outформуляр, това не гарантира законосъобразността на подхода, възприет при обучението на чатботовете и трябва да се изследва още в неговото начало. Още повече, личните данни на всеки етап вече са послужили за развитието на технологията, а това е необратимо.

 

 

Макар OpenAI да не продава или да не използва за директен маркетинг личните данни на трети лица, изключително трудно за много от практиците по защита на данните е да си представят, че интересът на OpenAI да използва въпросните данни може да надделее над този на лицата, без да предоставят своето съгласие. Защитава се едва ли не идеята, че субектите на данните могат разумно да очакват, че личните им данни, понеже са направени публично достояние, ще бъдат използвани за всякакви цели (включително обучение на изкуствен интелект), още повече и без да бъдат предварително информирани за тях.

 

 

Именно този въпрос предстои да бъде изследван на наднационално ниво измежду европейските регулатори, организирани в оперативната група, посочена по-горе. Към този момент е известно, че при някои от тях (в Полша например) вече са постъпили жалби, свързани с незаконосъобразната обработка на лични данни.

 

 

б) Прозрачност при обработката на данни

 

 

Всяка една обработка, независимо на какво правно основание се извършва (легитимен интерес или съгласие), трябва да бъде прозрачна спрямо субекта на данните. Това е и изискването на чл. 12 от ОРЗД, който предписва на субектите на данните да бъде предоставяна изрично информация относно обработването на личната им информация своевременно, в разбираема и лесно достъпна форма. В случая на обработката на данните, извършвана от OpenAI за целите на обучението на чатботовете, информирането на отделните засегнати лица не се извършва своевременно, а и на практика изобщо.

 

 

в) „Качество“ на обработваните данни

 

 

Както се намекна, регулаторните предизвикателства пред езиковите модели като ChatGPT включват и „качеството“ (тяхната истинност, точност и надеждност) на обработваните данни, които безконтролно се достъпват от интернет.

 

 

Поради особеностите на самия процес на обучението, източниците, от които лични данни се „свалят“, всеки от големите езикови модели е склонен да „халюцинира“, т.е. да си измислят факти или да бъркат при проверката на отделни факти. Това явление обаче крие рискове от гледна точка на приложимото законодателство, доколкото е възможно при изискване на биографична справка в рамките на чата с ChatGPT да бъдат представени неверни данни за едно лице, например без то предварително да е публикувало в пространството данни за себе си. Такъв е и случаят с австралийския кмет, който стана повод за първия заведен иск срещу OpenAI за вреди от клевета („defamation lawsuit“). Макар свързана с използването на друг софтуер базиран на изкуствен интелект, подобна случка имаше също наскоро в Испания, при която бяха генерирани неистински голи снимки на малолетни лица.

 

 

Нарушение на приложимото законодателство е данните да бъдат поддържани неточно, още повече да бъдат подвеждащи или дори да съдържат клевета за даденото лице. Нещо повече, ОРЗД задължава администраторите да предприемат активни стъпки, доколкото е възможно, така че данните да са максимално актуални и точни. Наистина към този момент OpenAI предоставя на своите потребители възможност, чрез отделен формуляр, наличен на уебсайта на организацията, да искат коригиране на неточни за тях лични данни, но това обстоятелство поначало не освобождава от отговорност администратора, в случай че се докаже, че тези лични данни поначало са били събрани неточно или за това, че чатботът ги е генерирал неточно поради грешка. Още повече, технологично е трудно, а дори невъзможно премахването на вече веднъж публикувана в интернет пространството информация.

 

 

3. Заключение и препоръки към организациите, ползващи езикови модели

 

 

В бързо развиващия се свят е неизбежно да се стигне до използването на изкуствен интелект, предвид неговата очаквана полза за обществото. Но заради строгите регулаторни мерки на органите за защита на личните данни, ChatGPT трябва да се използва със завишено внимание, особено докато единодушно на Европейско ниво не бъде установена сигурността му. В тази връзка е препоръчително, когато се представя информация за използване от ChatGPT или други езикови модели, личните данни да бъдат винаги заличавани (имена, уникални идентификатори, адреси, други обстоятелства от естество да идентифицират физически лица), съответно да бъдат разработени и използвани инструментите за възразяване срещу обработката на данните и ограничаване на съхраняването на информация от предходна чат кореспонденция. Освен за лични данни, компаниите трябва внимателно да следят и дали техни служители не предоставят информация в ChatGPT (обикновено с цел да си послужат с подготвянето на някое работно „мемо“, резюме на презентация, или проектен имейл), която може да съдържа търговска тайна, ноу-хау и друга по-чувствителна информация, обект на авторско право.

 

 

В противен случай, тази информация е възможно да „изтече“ в някакъв последващ момент, инцидентно или не, под формата на генериран текст-отговор от ChatGPT, разкриващ неправомерно данни за дадена компания, нейните служители (субекти на данните), което да бъде свързано както с нарушение на ОРЗД, така и с възникване на вреди.

 

Автори: Мария Абаджиева, Димо Катранджиев