Jak sztuczna inteligencja zmienia bezpieczeństwo danych w administracji publicznej

0
19
Rate this post

Z tej publikacji dowiesz się:

Dlaczego administracja publiczna sięga po sztuczną inteligencję

Presja sprawności: więcej spraw, mniej ludzi

Urzędy działają pod rosnącą presją: liczba spraw rośnie, przepisy są coraz bardziej skomplikowane, a możliwości zwiększania zatrudnienia są ograniczone. Obywatele oczekują obsługi „tu i teraz”, często porównując doświadczenie z administracją publiczną do bankowości elektronicznej czy komercyjnych platform cyfrowych. Jeśli urząd nie jest w stanie przetwarzać spraw szybciej, gromadzi się kolejka wniosków, pojawiają się skargi, a zaufanie do państwa spada.

W tym kontekście sztuczna inteligencja w urzędach staje się narzędziem do automatyzacji żmudnych, powtarzalnych czynności: wstępnej weryfikacji wniosków, klasyfikacji dokumentów, priorytetyzacji spraw, a także wykrywania błędów formalnych. Pozwala to urzędnikom skupić się na sprawach nietypowych, wymagających interpretacji przepisów i kontaktu z obywatelem, a nie na mechanicznym sprawdzaniu tysięcy stron dokumentów.

Do tego dochodzi presja cyfryzacji usług publicznych – od ePUAP po portale usług lokalnych. Dane, które kiedyś „leżały” w papierowych teczkach, dziś są w systemach teleinformatycznych i aż proszą się o analitykę. Bez wykorzystania algorytmów wiele z tych danych pozostaje „martwych”, a potencjał lepszego planowania polityk publicznych czy zwiększania bezpieczeństwa danych publicznych jest niewykorzystany.

Główne obszary wykorzystania AI w administracji

AI w administracji przestaje być teoretycznym pojęciem, a zaczyna przyjmować konkretne formy. Najczęściej spotykane kierunki wdrożeń to:

  • Obsługa wniosków i korespondencji – systemy rozpoznawania tekstu (OCR) oraz modele NLP klasyfikują pisma, wyciągają kluczowe informacje (numery spraw, rodzaj świadczenia, dane identyfikujące), wstępnie wypełniają formularze wewnętrzne.
  • Predykcja nadużyć i nieprawidłowości – algorytmy uczą się na historycznych danych, by typować wnioski podwyższonego ryzyka: świadczenia społeczne, zamówienia publiczne, dotacje, zwroty podatku VAT.
  • Zarządzanie infrastrukturą techniczną – AI wspiera monitorowanie serwerów, sieci, systemów bezpieczeństwa, przewiduje awarie i wykrywa anomalie w ruchu.
  • Obsługa obywatela – wirtualni asystenci odpowiadają na proste pytania, pomagają w nawigacji po usługach urzędu, odciążając infolinie i punkty obsługi.

Każdy z tych obszarów wiąże się z gromadzeniem, przetwarzaniem i analizą dużych ilości danych, często obejmujących informacje wrażliwe. To naturalnie przenosi punkt ciężkości dyskusji z samej „efektywności” na bezpieczeństwo oraz zgodność z prawem – zarówno na poziomie technicznym, jak i organizacyjnym.

Automatyzacja vs. uczenie maszynowe – kluczowa różnica

Wiele urzędów od lat korzysta z automatyzacji: formularze z walidacją pól, workflow dokumentów, szablony pism, harmonogramy zadań. To jednak głównie systemy oparte na prostych regułach: „jeśli A, to B”. Sztuczna inteligencja i uczenie maszynowe wprowadzają coś więcej – zdolność do uczenia się na danych i uogólniania wzorców, których nie da się wprost zapisać w postaci prostych przepisów IF-THEN.

Ta zmiana ma bezpośrednie skutki dla ochrony informacji w sektorze publicznym. Systemy oparte na regułach są przewidywalne: wiadomo, skąd bierze się każda decyzja, łatwiej też odtworzyć ścieżkę przetwarzania danych. Modele uczone na dużych zbiorach danych działają bardziej „statystycznie” – trudno jednoznacznie wskazać, które konkretnie dane wejściowe doprowadziły do takiego, a nie innego wyniku.

Jeśli decyzja administracyjna zależy od wyniku modelu, to pojawiają się pytania o wyjaśnialność, o możliwość zakwestionowania wyniku i o to, czy dane wejściowe były kompletne i rzetelne. Ochrona danych przestaje być tylko kwestią „zamka do szafy z papierami”, a staje się zagadnieniem projektowania i nadzorowania całego cyklu przetwarzania: od pozyskania, przez trening modeli, po ich aktualizację i wycofanie z eksploatacji.

Nowe typy danych: logi, metadane, profile ryzyka

Wdrożenie AI powoduje, że w urzędzie pojawiają się nowe kategorie danych, które wcześniej nie były traktowane jako zasób wymagający kompleksowej ochrony. Chodzi przede wszystkim o:

  • Logi techniczne – szczegółowe zapisy działania modeli, błędów, wejść i wyjść, używane później do audytu i debugowania.
  • Metadane o użytkownikach i sprawach – informacje o czasie, kolejności, częstotliwości operacji, zestawiane w celu wykrywania anomalii.
  • Profile ryzyka – agregaty cech obywateli, firm czy spraw, wykorzystywane do scoringu lub priorytetyzacji obsługi.

Te dane, choć czasem nie zawierają wprost imienia, nazwiska czy numeru PESEL, bardzo często pozwalają na ponowną identyfikację osoby (np. po kombinacji cech) albo ujawniają wrażliwe informacje po zestawieniu z innymi źródłami. Jeśli deklarowanym celem analizy jest np. „wykrywanie nadużyć”, to sama informacja, że dana osoba trafiła do grupy „wysokiego ryzyka”, może mieć istotne konsekwencje dla jej praw i wolności.

Rozumienie bezpieczeństwa danych musi więc przesunąć się z ochrony pojedynczych rekordów na ochronę całych przepływów danych i powiązań między nimi, w tym informacji o tym, jak modele korzystają z poszczególnych atrybutów.

Od kontroli dostępu do zarządzania cyklem życia danych

Tradycyjnie bezpieczeństwo danych w administracji utożsamiano głównie z kontrolą dostępu: uprawnienia w systemach, silne hasła, segmentacja sieci, odpowiednie poziomy tajności. Pojawienie się AI zmienia optykę – kluczowym pytaniem staje się: po co dane są przetwarzane, jak długo są przechowywane, kto może wpływać na model oraz w jaki sposób można usunąć lub skorygować dane, jeśli obywatel zrealizuje swoje prawa wynikające z RODO.

Bez zarządzania pełnym cyklem życia danych (data lifecycle management) wdrożenia AI są jak budowanie skomplikowanego mechanizmu na ruchomych piaskach. Dane treningowe kopiowane do kolejnych środowisk, brak dokumentacji źródeł, brak planu wycofania modelu po kilku latach – to wszystko rodzi ogromne ryzyko naruszeń oraz utraty kontroli nad tym, co w praktyce dzieje się z informacjami o obywatelach.

Bezpieczne użycie AI w administracji oznacza zatem coś więcej niż „dobre zabezpieczenia techniczne”. Oznacza konieczność przemyślenia, jak zorganizować procesy zbierania, przetwarzania, udostępniania i kasowania danych tak, żeby algorytmy miały wystarczająco dużo informacji, a jednocześnie by nie naruszyć prawa i zaufania społecznego.

Podstawy bezpieczeństwa danych w sektorze publicznym – punkt wyjścia

Kluczowe pojęcia: poufność, integralność, dostępność, rozliczalność

Bezpieczeństwo danych publicznych opiera się na kilku podstawowych filarach. W kontekście AI nie można ich pominąć, bo to do nich trzeba „dopasować” nowe technologie. Najczęściej wskazuje się cztery główne cechy:

  • Poufność – dane nie są ujawniane osobom nieuprawnionym. W AI oznacza to np. ochronę zbiorów treningowych i logów modeli przed nieautoryzowanym wglądem.
  • Integralność – dane są poprawne i niezmienione w sposób nieautoryzowany. Dla modeli AI kluczowe jest, aby dane treningowe nie były „zatrute” przez atakującego.
  • Dostępność – dane są dostępne dla uprawnionych podmiotów wtedy, gdy są potrzebne. Systemy AI nie mogą paraliżować pracy urzędu w wyniku awarii lub błędu konfiguracji.
  • Rozliczalność (accountability) – możliwe jest ustalenie, kto i kiedy co zrobił z danymi. Przy AI dochodzi potrzeba rozliczalności nie tylko użytkowników, ale też „decyzji” modelu.

W praktyce każdy projekt AI w administracji powinien być oceniany przez pryzmat tego, jak wpływa na te cztery cechy. Nowy system detekcji anomalii może poprawić poufność (szybciej wykrywa wycieki), ale jeśli generuje tysiące fałszywych alarmów, może obniżać dostępność i utrudniać codzienną pracę.

Ramy regulacyjne: RODO, przepisy krajowe, normy i wytyczne

Sztuczna inteligencja w urzędach nie istnieje w próżni prawnej. Podstawowym aktem jest oczywiście RODO, które wprost reguluje m.in. kwestie profilowania, zautomatyzowanego podejmowania decyzji, obowiązków informacyjnych wobec obywateli oraz oceny skutków dla ochrony danych (DPIA). Do tego dochodzą:

  • Przepisy sektorowe – np. ustawy regulujące pomoc społeczną, system ochrony zdrowia, edukację, ewidencję ludności czy zamówienia publiczne.
  • Prawo krajowe dotyczące cyberbezpieczeństwa – implementacja dyrektyw NIS, krajowe systemy cyberbezpieczeństwa, obowiązki operatorów usług kluczowych.
  • Normy i dobre praktyki – ISO/IEC 27001, 27701, wytyczne ENISA, rekomendacje krajowych CSIRT-ów, standardy dostępności i interoperacyjności.

Z perspektywy AI kluczowe są trzy obszary: legalność podstawy przetwarzania (czy urząd może użyć danych do trenowania modelu?), proporcjonalność (czy zakres danych jest adekwatny do celu?) oraz obowiązki informacyjne (czy obywatel wie, że jego dane będą użyte w systemie predykcyjnym?).

Dodatkowym impulsem są dobre praktyki i projekty pilotażowe opisywane m.in. przez branżowe portale technologiczne jak Harmony.edu.pl, które pokazują, że rozsądnie wdrożone algorytmy potrafią realnie odciążyć urzędy, jednocześnie wzmacniając kontrolę nad przepływem informacji.

Warto też uwzględnić perspektywę przyszłego europejskiego aktu o sztucznej inteligencji (AI Act), który wprowadzi dodatkowe obowiązki nadzoru i oceny ryzyka dla systemów wysokiego ryzyka – a wiele zastosowań w administracji będzie właśnie do tej kategorii należeć.

Specyfika danych w administracji publicznej

Administracja operuje bardzo szerokim spektrum danych, często głębszym i pełniejszym niż jakikolwiek podmiot komercyjny. Obejmuje to:

  • Dane wrażliwe – zdrowotne, dotyczące niepełnosprawności, przekonań religijnych, poglądów politycznych, przynależności związkowej.
  • Rejestry publiczne – ewidencja ludności, rejestry gruntów, KRS, CEIDG, systemy podatkowe.
  • Informacje niejawne – dotyczące bezpieczeństwa państwa, obronności, działań operacyjnych służb.
  • Dane szczególnie chronione – np. dane dzieci, ofiar przemocy, osób objętych programami ochrony.

Połączenie tych kategorii w jednym projekcie AI (np. model wykrywający nadużycia finansowe w systemie świadczeń) powoduje, że ryzyko naruszenia praw i wolności obywateli rośnie wykładniczo. Nawet jeśli każde z osobna przetwarzanie jest legalne, to ich agregacja i profilowanie może prowadzić do skutków, których ustawodawca pierwotnie nie przewidział.

Dlatego analiza ryzyka AI w administracji musi wychodzić poza prostą macierz „prawdopodobieństwo × skutek” i obejmować scenariusze wtórnych wykorzystań danych, wtórnej identyfikacji oraz zmian kontekstu (np. użycie modelu zaprojektowanego do jednego celu w innym, bardziej inwazyjnym zastosowaniu).

Tradycyjny model ochrony danych i jego ograniczenia

Klasyczne podejście do bezpieczeństwa w urzędach można streścić w kilku punktach: silosy danych (osobne systemy dziedzinowe), kontrola dostępu oparta o role i komórki organizacyjne, okresowe audyty, kopie zapasowe z przechowywaniem offline, ograniczone udostępnianie na zewnątrz. Taki model jest relatywnie stabilny, ale ma trzy poważne ograniczenia w zderzeniu z AI:

  • Brak całościowego obrazu – dane są zamknięte w silosach, co utrudnia trenowanie modeli wymagających szerokiego kontekstu (np. łączenia informacji podatkowych, ewidencyjnych i świadczeniowych).
  • Ograniczona widoczność – audyty są punktowe i okresowe, nie ma stałego monitoringu anomalii ani automatycznego wykrywania naruszeń.
  • Brak elastyczności – każda integracja między systemami jest kosztowna i długa, co blokuje eksperymenty i pilotaże z AI.

AI wymusza integrację danych, ciągły monitoring, częstsze aktualizacje systemów bezpieczeństwa. To zmienia paradygmat: z ochrony „fortecy” (zamknięty urząd) na ochronę ekosystemu powiązanych usług i systemów, w tym zewnętrznych dostawców chmury czy narzędzi analitycznych.

Monitor z zielonym interfejsem cyberbezpieczeństwa i ochrony danych
Źródło: Pexels | Autor: Tima Miroshnichenko

Jak zmienia się architektura danych, gdy pojawia się AI

Od lokalnych serwerowni do środowisk hybrydowych i chmurowych

Segmentacja środowisk i strefowanie przepływów danych

Wraz z pojawieniem się modeli AI klasyczne „DMZ + sieć wewnętrzna” przestaje wystarczać. Pojawiają się nowe strefy: środowisko eksploracyjne (data lab), środowisko treningowe, środowisko walidacyjne i produkcyjne. Każde z nich ma inne ryzyka i inne wymagania bezpieczeństwa.

Przykładowo analityk pracujący w data labie nie powinien mieć dostępu do surowych danych z rejestrów w trybie online, a jedynie do zubożonych (minimalnie potrzebnych) wycinków. Z kolei środowisko produkcyjne, gdzie model podejmuje decyzje wobec obywateli, wymaga bardzo ścisłej kontroli zmian, silnego logowania i kontroli wersji modeli.

Przy projektowaniu architektury trzeba więc zaplanować nie tylko „gdzie stoją serwery”, ale też:

  • jakie kategorie danych mogą przepływać między strefami (np. tylko dane zanonimizowane do środowisk eksploracyjnych),
  • jakie są dopuszczalne kierunki ruchu (np. z produkcji do trenowania jedynie w formie zliczonych statystyk),
  • jakie mechanizmy audytu i zatwierdzania migracji danych obowiązują między strefami.

Bez takiego strefowania modele szybko „zarastają” danymi z różnych źródeł, a urząd traci zdolność odpowiedzi na podstawowe pytanie: skąd dokładnie pochodzą informacje użyte do wygenerowania danej rekomendacji.

Data lake, hurtownie i katalogi danych w roli „kręgosłupa” pod AI

Aby w ogóle trenować modele, administracja musi odejść od izolowanych baz dziedzinowych i stworzyć spójny kręgosłup danych: hurtownie, data lake, data mesh lub ich kombinację. Z perspektywy bezpieczeństwa kluczowe nie jest to, który wzorzec zostanie przyjęty, ale czy:

  • istnieje centralny katalog danych (data catalog) z opisem zbiorów, ich klasyfikacją (w tym wrażliwością) i zasadami użycia,
  • stosowane są polityki data governance, które określają właścicieli danych (data owners) i osoby odpowiedzialne za jakość i zgodność przetwarzania (data stewards),
  • wymusza się kontrolę dostępu na poziomie atrybutów (attribute-based access control), a nie jedynie całych tabel czy systemów.

Bez katalogu danych modele rozwijają się w półmroku: zbiory są powielane, nie wiadomo, która wersja jest referencyjna, a która obejmuje przestarzałe lub nielegalnie zebrane informacje. To z kolei uniemożliwia rzetelną ocenę wpływu systemu AI na prywatność i narusza zasadę minimalizacji danych.

Przepływy danych między urzędami i dostawcami zewnętrznymi

Modele AI, zwłaszcza te oparte na usługach chmurowych, często korzystają z komponentów zewnętrznych: narzędzi do trenowania, platform MLOps, specjalistycznych modeli przetwarzania języka. Oznacza to, że dane z rejestrów publicznych mogą przekraczać granice organizacyjne, a czasem – granice państw.

Jeśli urząd korzysta z zewnętrznego dostawcy, konieczne staje się bardzo precyzyjne określenie w umowie:

  • czy dostawca może wykorzystywać dane lub metadane do własnych celów (np. trenowania swoich modeli),
  • w jakiej formie dane są przechowywane i szyfrowane (szyfrowanie „w spoczynku” i „w tranzycie” przestaje być dodatkiem, a staje się wymogiem),
  • jakie są scenariusze wyjścia (exit plan) – w tym usunięcia danych, modeli i logów po zakończeniu współpracy.

Szczególnie problematyczne są usługi „gotowych” modeli językowych, gdzie dane wejściowe (np. treść wniosku obywatela) mogą stać się częścią logów dostawcy. Bez jasnych gwarancji kontraktowych i technicznych (np. wyłączenia z trenowania, dedykowane instancje) trudno mówić o kontroli nad bezpieczeństwem danych.

Metadane i logi – nowe złoto i nowe ryzyko

Systemy AI generują ogromne ilości metadanych: logi predykcji, informacje o wersjach modeli, parametrach treningu, źródłach danych. To właśnie z tych technicznych śladów często da się odtworzyć, jak model był uczony, a nawet zrekonstruować elementy danych treningowych.

Z perspektywy bezpieczeństwa oznacza to dwa przeciwstawne wymagania:

  • logi muszą być wystarczająco szczegółowe, aby umożliwić rozliczalność i analizę incydentów,
  • jednocześnie muszą być ograniczone pod względem wrażliwych danych (np. brak pełnych treści dokumentów, pseudonimizacja identyfikatorów).

Projektując architekturę, trzeba więc zdecydować, które dane trafiają do logów w formie pełnej, które są haszowane lub pseudonimizowane, a które w ogóle nie powinny się tam znaleźć. Zaniedbanie tej kwestii prowadzi do paradoksu: system zabezpieczeń sam staje się najbardziej wrażliwym zbiorem w urzędzie.

Mechanizmy AI, które wzmacniają bezpieczeństwo danych

Uczenie maszynowe w systemach detekcji anomalii

Najbardziej oczywistym zastosowaniem AI w bezpieczeństwie jest automatyczne wykrywanie nietypowych zdarzeń. Modele uczą się „normalnego” zachowania systemów i użytkowników, a następnie alarmują, gdy coś odbiega od wzorca. W administracji może to być np.:

  • nagłe masowe pobieranie danych z rejestru przez jednego użytkownika lub aplikację,
  • dostęp do danych w godzinach lub lokalizacjach nietypowych dla danego urzędnika,
  • próby łączenia danych z różnych systemów w sposób, który nie wynika z zakresu obowiązków.

Takie systemy, jeśli są dobrze skalibrowane, skracają czas wykrycia incydentu z tygodni do minut. Jednocześnie wymagają stałego „dokarmiania” danymi i przeglądów reguł, aby nie zamieniły się w generator fałszywych alarmów paraliżujących dział bezpieczeństwa.

Klasyfikacja i automatyczne etykietowanie danych

Modele NLP i rozpoznawania wzorców mogą wspierać klasyfikację dokumentów pod kątem wrażliwości. Zamiast ręcznego oznaczania setek tysięcy plików, system może wstępnie przypisać etykiety, takie jak „dane zdrowotne”, „informacje niejawne – zastrzeżone”, „dane dzieci”.

Efektem jest lepsza egzekucja polityk bezpieczeństwa: system DLP (Data Loss Prevention) ma szansę rozpoznać, że urzędnik próbuje wysłać mailem załącznik zawierający dane szczególnych kategorii, nawet jeśli dokument nie zawiera jawnego oznaczenia. Warunkiem jest jednak wdrożenie procesu weryfikacji – człowiek musi mieć możliwość szybkiego poprawienia błędnej klasyfikacji.

Jeśli interesują Cię konkrety i przykłady, rzuć okiem na: Sektor publiczny: wykrywanie nadużyć finansowych.

Inteligentne systemy kontroli dostępu

Tradycyjne role (RBAC) przestają nadążać za złożonością współczesnych systemów. AI może wspierać model ABAC (attribute-based access control), analizując w czasie rzeczywistym kontekst żądania dostępu: urządzenie, lokalizację, porę dnia, historię działań użytkownika.

Jeśli np. pracownik o określonych uprawnieniach próbuje pobrać pełen wyciąg z rejestru z innego kraju niż zwykle i na niezarejestrowanym urządzeniu, system może:

  • zażądać dodatkowego uwierzytelnienia wieloskładnikowego,
  • ograniczyć zakres dostępnych danych (np. tylko dane zanonimizowane),
  • zablokować operację i wygenerować alert do zespołu bezpieczeństwa.

To podejście wymaga jednak bardzo jasnych zasad „nadpisywania” decyzji modelu przez człowieka, tak aby błędna ocena ryzyka nie uniemożliwiała realizacji ustawowych zadań urzędu.

Anonymizacja, pseudonimizacja i prywatność różnicowa wspierane przez AI

Nowoczesne techniki anonimizacji coraz częściej wykorzystują uczenie maszynowe. Modele pomagają wykrywać potencjalne kombinacje atrybutów, które mogą prowadzić do ponownej identyfikacji osoby po połączeniu z innymi zbiorami.

Coraz większe znaczenie ma też prywatność różnicowa (differential privacy), czyli wprowadzanie kontrolowanego „szumu” do danych statystycznych. AI może wspierać dobór parametrów tego szumu tak, aby:

  • z jednej strony utrudnić odtworzenie informacji o konkretnym obywatelu,
  • z drugiej – zachować użyteczność danych dla trenowania modeli i analiz polityk publicznych.

Zastosowanie takich technik wymaga jednak kompetencji matematycznych i zrozumienia, że nie istnieje „idealna anonimizacja” – zawsze jest to wybór między poziomem ryzyka a użytecznością danych.

Automatyczna analiza dokumentów pod kątem wycieków danych

Modele językowe można wykorzystać do skanowania dokumentów przygotowywanych przez urzędy przed ich publikacją lub wysyłką. System może wykrywa, że w opisie sprawy znalazły się dane łamiące zasady minimalizacji, np. szczegółowe informacje medyczne w piśmie kierowanym do podmiotu, który nie ma podstawy prawnej, by je poznać.

Takie narzędzie nie zastąpi inspektora ochrony danych, ale pozwala stworzyć „drugi zestaw oczu”, który przejrzy dużą liczbę pism i wskaże te o podwyższonym ryzyku ujawnienia danych wrażliwych.

Sylwetka człowieka na tle zielonego kodu binarnego symbolizującego cyberbezpiecz
Źródło: Pexels | Autor: cottonbro studio

Nowe zagrożenia dla bezpieczeństwa danych generowane przez AI

Ataki na modele: zatruwanie danych i odwracanie inferencji

Systemy AI same stają się celem ataków. Dwa typy są szczególnie istotne z perspektywy administracji:

  • Zatruwanie danych treningowych (data poisoning) – atakujący wprowadza do systemu dane, które mają wypaczyć działanie modelu (np. zgłoszenia z fikcyjnymi danymi, które zmieniają wzorce wykrywania nadużyć).
  • Odwracanie inferencji (model inversion) – na podstawie odpowiedzi modelu próbuje się odtworzyć elementy danych treningowych (np. cechy osoby, której dane znalazły się w zbiorze treningowym).

Jeśli modele są trenowane częściowo na danych pochodzących od obywateli w trybie „ciągłego uczenia”, istnieje ryzyko, że złośliwy użytkownik wstrzyknie specjalnie przygotowane dane, aby np. osłabić mechanizmy wykrywania oszustw w określonym obszarze.

„Czarna skrzynka” i iluzja obiektywizmu

Modele, zwłaszcza głębokie sieci neuronowe, są trudne do zrozumienia nawet dla specjalistów. W administracji grozi to zjawiskiem przerzucania odpowiedzialności: „tak zadecydował system”. Z punktu widzenia bezpieczeństwa danych problem jest szerszy – jeśli urzędnicy nie rozumieją, jak model korzysta z konkretnych atrybutów, nie są w stanie ocenić faktycznego ryzyka dla prywatności obywateli.

Pojawia się też iluzja obiektywizmu: skoro decyzja jest „algorytmiczna”, bywa uznawana za bardziej neutralną. W praktyce model może wzmacniać istniejące uprzedzenia i błędy danych wejściowych (np. historyczne schematy odmów świadczeń), co prowadzi do systematycznego naruszania praw określonych grup.

Model jako kanał wycieku informacji

Wielkie modele językowe i modele rekomendacyjne mogą nieświadomie przechowywać fragmenty danych treningowych w swoich parametrach. Jeśli są źle skonfigurowane, użytkownik może wydobyć poufne informacje poprzez odpowiednio sprytne zapytania. Scenariusze obejmują m.in.:

  • odtworzenie fragmentów pism urzędowych użytych do treningu,
  • ujawnienie wzorców, które pozwalają z dużym prawdopodobieństwem wytypować osoby z określonymi cechami (np. chorobami, zadłużeniem),
  • uzyskanie informacji o zasadach wewnętrznych, które nie powinny być publicznie znane (np. szczegółowe reguły scoringu ryzyka).

Ryzyko rośnie, jeśli ten sam model jest wykorzystywany równocześnie do obsługi obywateli i do wewnętrznych analiz, a dane z jednego kontekstu „przeciekają” do odpowiedzi w drugim.

Masowe profilowanie i ryzyko funkcji wtórnych

AI ułatwia łączenie danych z wielu rejestrów i budowanie szczegółowych profili obywateli. Nawet jeśli pierwotny cel jest zgodny z prawem (np. wykrywanie nadużyć), to te same modele mogą zostać użyte wtórnie do innych funkcji, np. przewidywania „społecznej kłopotliwości” mieszkańców danego obszaru.

Problemem nie jest tylko techniczna możliwość takiego profilowania, ale też pokusy instytucjonalne. Skoro urząd ma już model i zintegrowane dane, presja na ich wtórne wykorzystanie jest duża. To prowadzi do „pełzającej zmiany celu”, czyli rozszerzania zakresu przetwarzania bez adekwatnej oceny skutków i konsultacji społecznych.

Automatyzacja decyzji i „zamrożenie” błędnych praktyk

Jeśli system AI jest zasilany historycznymi danymi z decyzji administracyjnych, wbudowuje w siebie dotychczasowe praktyki – w tym ich błędy i uprzedzenia. W tradycyjnym modelu zmiana wytycznych lub orzecznictwa sądów stopniowo wpływa na sposób działania urzędników. W modelu zautomatyzowanym „stara logika” może być nieświadomie utrzymywana przez lata.

Z punktu widzenia bezpieczeństwa danych oznacza to utrzymywanie przetwarzania, które stało się już nieproporcjonalne lub niezgodne z aktualnym prawem. Dane są przetwarzane „bo tak działa model”, a nie dlatego, że przeprowadzono świeżą analizę potrzeb i podstawy prawnej.

Uzależnienie od dostawców i brak przejrzystości łańcucha wartości

Ryzyka kontraktowe i techniczne w relacjach z dostawcami

Wraz z wdrażaniem systemów AI administracja w coraz większym stopniu polega na oprogramowaniu i infrastrukturze podmiotów zewnętrznych. Jeśli komponent kluczowy dla przetwarzania danych (np. silnik rozpoznawania dokumentów, chmurowa platforma analityczna) jest „czarną skrzynką” dostawcy, urząd traci kontrolę nad tym, jak faktycznie są przetwarzane dane obywateli.

Ryzyka mają zarówno charakter kontraktowy, jak i techniczny. Po stronie umowy pojawiają się m.in.:

  • niejasno opisane role w rozumieniu RODO (współadministrator vs. procesor),
  • brak precyzyjnych ograniczeń co do celów przetwarzania po stronie dostawcy,
  • niepełne zapisy o lokalizacji danych i ewentualnym transferze poza EOG,
  • brak prawa do audytu lub bardzo ograniczony zakres kontroli.

Po stronie technicznej problemem jest m.in. brak wglądu w łańcuch poddostawców (subprocesorów), brak instrukcji bezpieczeństwa dotyczących trenowania modeli (np. czy dane klientów różnych instytucji są mieszane) oraz nieprzejrzyste mechanizmy logowania i monitoringu.

Jeśli urząd korzysta z usług dostawcy, który trenował swoje modele na danych wielu klientów, a umowy nie regulują tego wprost, może dojść do wtórnego wykorzystania danych obywateli w modelach obsługujących inne podmioty. Trudno to wykryć bez wbudowanych mechanizmów rozliczalności (audytowalności) po stronie dostawcy.

Geopolityczne aspekty lokalizacji danych i modeli

Bezpieczeństwo danych w administracji przestaje być wyłącznie kwestią techniczną. Jeśli kluczowe modele są utrzymywane na infrastrukturze podmiotów podlegających obcym jurysdykcjom, pojawia się ryzyko dostępu organów bezpieczeństwa innych państw lub sankcji ograniczających działanie systemów.

W przypadku usług chmurowych problemem jest nie tylko lokalizacja fizyczna danych, lecz także miejsce, w którym następuje inferencja modelu i gdzie przechowywane są jego parametry. Dane mogą pozostawać „w Europie”, ale wywołanie modelu może korzystać z komponentu, który tymczasowo replikuje fragmenty danych lub metadanych poza EOG. Bez szczegółowej dokumentacji i testów jest to trudne do zweryfikowania.

Rozwiązaniem bywa wymóg „suwerenności danych” (data/AI sovereignty), czyli stosowanie rozwiązań, w których:

  • wszystkie operacje na danych osobowych zachodzą na infrastrukturze podległej prawu krajowemu lub unijnemu,
  • kluczowe modele są trenowane i utrzymywane w środowisku wydzielonym (sovereign cloud, lokalne centrum danych),
  • transfer parametrów modelu i logów jest ściśle kontrolowany i udokumentowany.

Trwałość zależności i ryzyko „zakleszczenia” technologicznego

Im bardziej zaawansowany jest system AI, tym trudniej go potem zastąpić lub przenieść. Modele są dostrajane latami na specyficznych danych urzędu, integracje z systemami dziedzinowymi są rozbudowane, a dokumentacja – często niepełna.

Jeśli nie uwzględni się tego na etapie projektowania, pojawia się ryzyko „zakleszczenia” technologicznego (vendor lock-in):

  • brak możliwości migracji modeli wraz z wagami do innego dostawcy,
  • ograniczone formaty eksportu danych treningowych i logów,
  • uzależnienie procedur bezpieczeństwa od narzędzi jednego producenta.

Z perspektywy bezpieczeństwa danych oznacza to trudności w naprawie błędów. Jeśli ujawni się poważna luka lub naruszenie ochrony danych, urząd może nie być w stanie szybko zmienić platformy ani w pełni przeanalizować, co faktycznie działo się z danymi w przeszłości.

Wpływ AI na prywatność obywateli i zgodność z prawem

Minimalizacja danych w epoce modeli głębokiego uczenia

Modele AI „lubią” duże zbiory danych i bogate zbiory cech. To stoi w napięciu z zasadą minimalizacji danych, która wymaga ograniczenia zakresu informacji do niezbędnego minimum. Jeśli specjaliści ds. danych projektują modele wyłącznie pod kątem jakości predykcji, łatwo o sytuację, w której:

  • do modelu trafiają atrybuty, które nie są potrzebne do celu ustawowego,
  • dane są przechowywane dłużej niż to konieczne „na wszelki wypadek”,
  • różne rejestry są łączone wyłącznie z przyczyn technicznych, bez odrębnej podstawy prawnej.

Kluczem jest zbudowanie procesu, w którym projektanci modeli współpracują z prawnikami i inspektorem ochrony danych. Dla każdego zestawu cech należy ocenić nie tylko wpływ na skuteczność modelu, ale też proporcjonalność i niezbędność z perspektywy celu publicznego. Często możliwe jest zastąpienie danych szczególnie wrażliwych agregatami lub wskaźnikami pośrednimi.

Ocena skutków dla ochrony danych (DPIA) z uwzględnieniem AI

Projekty AI w administracji coraz częściej wymagają przeprowadzenia oceny skutków dla ochrony danych (DPIA). Tradycyjne podejście – skoncentrowane na pojedynczym systemie – bywa niewystarczające. W przypadku AI trzeba uwzględnić m.in.:

  • cykl życia modelu (trenowanie, testowanie, wdrażanie, ponowne trenowanie),
  • źródła danych treningowych, w tym dane wtórnie wykorzystywane,
  • ryzyka reidentyfikacji po połączeniu wielu zbiorów,
  • mechanizmy nadzoru człowieka i możliwość zakwestionowania decyzji algorytmicznej.

Praktycznym podejściem jest prowadzenie DPIA jako procesu ciągłego: dokumentacja jest aktualizowana przy każdym istotnym przetrenowaniu modelu, zmianie cech wejściowych czy rozszerzeniu zakresu zastosowań. W przeciwnym razie urząd dysponuje „martwym” dokumentem, który nie odzwierciedla realnego przetwarzania danych.

Transparentność wobec obywateli i „wyjaśnialna” AI

Zgodność z prawem to nie tylko techniczna ochrona danych, lecz także przejrzystość wobec osób, których dane są przetwarzane. Jeśli urząd korzysta z AI do podejmowania decyzji lub do wstępnego profilowania wniosków, obywatel powinien wiedzieć:

  • że jego sprawa jest oceniana przez system algorytmiczny,
  • jakie główne kryteria wpływają na wynik,
  • jak może zakwestionować decyzję lub poprosić o jej weryfikację przez człowieka.

Nie oznacza to ujawniania całego kodu czy parametrów modelu. W praktyce pomocne są narzędzia wyjaśnialności (XAI), które pozwalają wygenerować opis: które czynniki miały największy wpływ na decyzję w konkretnej sprawie. Wyzwaniem jest przełożenie takich technicznych wyjaśnień na język zrozumiały dla osoby bez przygotowania specjalistycznego.

Granica między wsparciem a automatyzacją decyzji

W wielu projektach deklarowanym celem jest „wspomaganie” urzędnika. W praktyce, jeśli interfejs użytkownika jest tak zaprojektowany, że rekomendacja modelu dominuje ekran, a jej odrzucenie wymaga dodatkowych uzasadnień, system staje się de facto automatycznym decydentem.

Z perspektywy prawa ochrony danych i praw obywatelskich istotne jest ustalenie, czy decyzja ma charakter w pełni zautomatyzowany, czy jednak człowiek sprawuje realną kontrolę. Odpowiedź zależy od tego, czy urzędnik:

  • ma dostęp do pełnych danych istotnych dla sprawy,
  • może w rozsądnym czasie przeanalizować sprawę niezależnie od sugestii modelu,
  • ponosi osobistą odpowiedzialność za decyzję i ma narzędzia do jej modyfikacji.

Jeśli faktycznie to model wyznacza kierunek, a człowiek tylko akceptuje podpowiedzi, należy stosować przepisy dotyczące zautomatyzowanego podejmowania decyzji i zapewnić odpowiednie gwarancje (prawo do interwencji człowieka, prawo do wyrażenia własnego stanowiska, możliwość zakwestionowania decyzji).

Na koniec warto zerknąć również na: MetaMask scam: phishing na portfel przeglądarkowy — to dobre domknięcie tematu.

Zgoda, podstawa prawna i wtórne wykorzystanie danych

W administracji przetwarzanie danych rzadko opiera się na zgodzie – podstawą prawną są najczęściej przepisy szczególne. Wraz z rozwojem AI pojawia się jednak coraz więcej sytuacji, w których dane zebrane do jednego celu są wykorzystywane do innego, np.:

  • dane z systemu świadczeń socjalnych służą do trenowania modeli wykrywających nadużycia podatkowe,
  • dane z rejestru edukacyjnego są używane do analiz predykcyjnych na potrzeby polityk rynku pracy.

Granica między „zgodnym z pierwotnym celem” a „nowym celem” bywa płynna, ale z punktu widzenia RODO i przepisów sektorowych taka zmiana wymaga odrębnej analizy zgodności. Czasem niezbędna jest zmiana ustawowa, innym razem – solidna anonimizacja i ograniczenie się do danych zagregowanych. Mechanizmy AI, które z łatwością łączą zbiory, zwiększają ryzyko nieświadomego przekroczenia tej granicy.

Specjalne kategorie danych i wnioskowanie pośrednie

AI potrafi wnioskować o cechach osoby nawet wtedy, gdy nie są one wprost zapisane w rejestrze. Z zestawu pozornie neutralnych danych można z dużym prawdopodobieństwem odgadnąć np. stan zdrowia, pochodzenie etniczne czy przekonania religijne. To szczególnie problematyczne w kontekście specjalnych kategorii danych.

Nawet jeśli urząd formalnie nie zbiera takich informacji, model może tworzyć ich „ukryte reprezentacje”. Z prawnego punktu widzenia rodzi to pytanie, czy nie dochodzi do przetwarzania danych szczególnych „przy okazji” analizy innych atrybutów. Odpowiedź zależy m.in. od:

  • celu, w jakim wykorzystywana jest wiedza modelu,
  • tego, czy takie pośrednie kategorie wpływają na decyzje wobec konkretnej osoby,
  • możliwości technicznego ograniczenia lub usunięcia tych wymiarów z modelu.

W praktyce oznacza to konieczność testowania modeli pod kątem zdolności do wnioskowania o cechach szczególnie chronionych i wprowadzania ograniczeń już na etapie projektowania architektury.

Prawa jednostki wobec systemów AI

Prawa do dostępu do danych, ich sprostowania, ograniczenia przetwarzania czy sprzeciwu muszą być realizowane również w środowisku opartym na AI. To komplikuje się, gdy dane obywatela są częścią zbioru treningowego lub wpływają na wagi modelu.

Jeśli osoba żąda usunięcia swoich danych, a jej dane były użyte do trenowania modelu, pojawia się pytanie, czy i jak „wycofać” ich wpływ. Możliwe podejścia obejmują m.in.:

  • trenowanie modeli na silnie zanonimizowanych, zredukowanych zbiorach,
  • stosowanie technik „model unlearning” – celowego „oduczania” modelu wpływu określonych rekordów,
  • utrzymywanie silnego rozdziału między danymi operacyjnymi a danymi wykorzystywanymi wyłącznie do analiz statystycznych.

Każde z tych podejść ma konsekwencje dla jakości modeli i kosztów ich utrzymania. Brak decyzji w tym obszarze skutkuje natomiast sytuacją, w której prawa jednostki istnieją głównie na papierze, bo urząd technicznie nie jest w stanie ich wykonać.

Etyka algorytmiczna jako element bezpieczeństwa danych

Bezpieczeństwo danych w kontekście AI nie sprowadza się do szyfrowania czy kontroli dostępu. Jeśli algorytmy prowadzą do systematycznej dyskryminacji określonych grup, efektem jest naruszenie dóbr osobistych i praw podstawowych, nawet gdy żadne dane nie „wyciekają” w klasycznym sensie.

Dlatego coraz częściej w administracji pojawiają się wewnętrzne standardy etyczne dla systemów AI. Obejmują one m.in.:

  • wymóg testowania modeli pod kątem zróżnicowanego wpływu na różne grupy obywateli,
  • zakaz używania określonych cech lub ich pochodnych do podejmowania decyzji,
  • obowiązek okresowego przeglądu algorytmów przez zespół interdyscyplinarny (prawnicy, specjaliści ds. danych, przedstawiciele jednostek merytorycznych).

Tego typu zasady nie zastępują przepisów prawa, ale pomagają wychwycić problemy, które formalnie nie są jeszcze uregulowane, a które mogą mieć istotny wpływ na prywatność i zaufanie obywateli do administracji publicznej.

Najczęściej zadawane pytania (FAQ)

Jak administracja publiczna konkretnie wykorzystuje sztuczną inteligencję?

Najczęstsze zastosowania to automatyzacja obsługi wniosków i korespondencji (OCR, klasyfikacja pism, wstępne wypełnianie formularzy), predykcja nadużyć (typowanie wniosków podwyższonego ryzyka w świadczeniach, podatkach, dotacjach), monitorowanie infrastruktury IT oraz wirtualni asystenci dla obywateli.

Jeśli obywatel widzi szybciej rozpatrzony wniosek, automatycznie skategoryzowaną korespondencję czy czatbota na stronie urzędu, to najczęściej w tle działa właśnie kombinacja klasycznych systemów i rozwiązań AI.

Czy wykorzystanie AI w urzędach jest zgodne z RODO?

Samo użycie AI nie jest sprzeczne z RODO, ale wymaga spełnienia tych samych zasad, co każde inne przetwarzanie danych: legalności, minimalizacji, ograniczenia celu, przejrzystości i rozliczalności. Różnica polega na tym, że przy modelach uczonych na dużych zbiorach danych trudniej jest opisać, jak dokładnie dochodzi do konkretnej decyzji.

Dlatego przed wdrożeniem systemu AI wrażliwego z punktu widzenia praw obywateli urząd powinien przeprowadzić ocenę skutków dla ochrony danych (DPIA), jasno wskazać podstawę prawną i sposób działania systemu oraz umożliwić zakwestionowanie decyzji opartej na algorytmie.

Jakie nowe ryzyka dla bezpieczeństwa danych pojawiają się przez AI w administracji?

Oprócz klasycznego ryzyka wycieku danych pojawiają się zagrożenia związane z nowymi kategoriami informacji: logami technicznymi, rozbudowanymi metadanymi i profilami ryzyka. Zestawione razem mogą one pozwolić na ponowną identyfikację osoby lub ujawnienie wrażliwych cech, nawet jeśli nie zawierają imienia czy PESEL.

Dodatkowo dochodzi ryzyko „zatrucia” danych treningowych, manipulacji modelem (np. poprzez nietypowe dane wejściowe) oraz utraty kontroli nad kopiami zbiorów danych używanych w różnych środowiskach (testowym, deweloperskim, produkcyjnym). To wymusza znacznie szersze spojrzenie na ochronę całych przepływów danych, a nie tylko pojedynczych baz.

Czym różni się tradycyjna automatyzacja od AI z punktu widzenia bezpieczeństwa danych?

Tradycyjna automatyzacja opiera się na sztywnych regułach („jeśli A, to B”), dzięki czemu łatwo odtworzyć, dlaczego system podjął określoną decyzję i jakie dane wykorzystał. Modele AI uczone na danych działają probabilistycznie – wskazują najbardziej prawdopodobny wynik na podstawie wzorców, których nie da się wprost zapisać.

Z perspektywy bezpieczeństwa informacji oznacza to większe znaczenie wyjaśnialności modelu, kontroli jakości danych treningowych oraz nadzoru nad całym cyklem życia modelu (trening, aktualizacje, wycofanie). Jeśli decyzja administracyjna opiera się na wyniku modelu, urząd musi być w stanie wyjaśnić ją obywatelowi i zbadać ewentualny błąd.

Jakie dane są szczególnie wrażliwe przy stosowaniu AI w urzędach?

Poza oczywistymi danymi osobowymi (PESEL, adres, dane zdrowotne) coraz ważniejsze stają się:

  • logi techniczne systemów AI – zawierające informacje o wejściach, wyjściach i błędach,
  • metadane o sprawach i użytkownikach – kolejność operacji, częstotliwość, czas dostępu,
  • profile ryzyka – agregaty cech służące do scoringu i priorytetyzacji spraw.

Nawet jeśli pojedynczy element wydaje się „nieszkodliwy”, zestawienie takich danych może wpływać na prawa i wolności jednostki (np. umieszczenie w grupie „wysokiego ryzyka” bez realnej możliwości obrony).

Jak urzędy powinny zarządzać cyklem życia danych przy projektach AI?

Kluczowe jest zaplanowanie całej „drogi” danych: od zebrania, przez przygotowanie do treningu modeli, wykorzystanie w systemie produkcyjnym, aż po archiwizację i usunięcie. Jeśli każdy etap nie ma jasno określonych zasad (kto ma dostęp, w jakim celu, jak długo), pojawia się ryzyko niekontrolowanego namnażania kopii, błędów i naruszeń.

W praktyce oznacza to m.in. ewidencję zbiorów danych i ich źródeł, kontrolę migracji między środowiskami, procedury aktualizacji i wycofania modeli, a także mechanizmy realizacji praw obywateli (sprostowanie, ograniczenie przetwarzania, sprzeciw), gdy dane były użyte do uczenia lub działania modelu.

Jakie podstawowe zasady bezpieczeństwa danych muszą być spełnione przy wdrażaniu AI w administracji?

AI nie znosi klasycznych wymogów, tylko je zaostrza. Dane muszą pozostać poufne (brak dostępu osób nieuprawnionych, także do zbiorów treningowych i logów), integralne (chronione przed nieautoryzowaną modyfikacją, w tym przed „podtruciem” danych), dostępne (system AI nie może paraliżować urzędu awariami) oraz rozliczalne.

Rozliczalność obejmuje już nie tylko użytkowników, ale też decyzje modeli: konieczne jest rejestrowanie, kiedy i na jakiej podstawie model podjął określony wynik, tak aby możliwy był audyt, kontrola i ewentualna korekta procesu decyzyjnego.