Kilka uwag o projektach AI & Data: dlaczego złe dane są źródłem kłopotów
O co chodzi? O dane.
Niestety, ale w wielu organizacjach nadal przykładamy niewystarczającą uwagę do jakości danych, która tak naprawdę determinuje nasz sukces lub porażkę w kontekście AI.
Dlaczego tak jest? Dlatego, że złe dane są źródłem kłopotów.
Czytaj takze: AI: jak normy ISO przekuć w przewagę konkurencyjną i zapewnić sobie trochę bezpieczeństwa?
Agentyczna AI
Jeżeli postanowiliśmy oddać „sprawczość” jakich procesów w ręce agentów AI, to z pewnością dajemy im dostęp nie tylko do samych systemów, ale także do baz danych, na których bazują konkretne decyzje. Do tego „inni agenci” również korzystają z jakichś źródeł danych, w tym np. zewnętrznych baz (niech będą to strony internetowe).
Inny przykład – bardziej tradycyjny. Mamy całkiem pokaźne zbiory danych dotyczących naszych klientów i chcemy stworzyć model, który pozwoli nam efektywniej i skuteczniej dostarczać im rozwiązań, które oferujemy. Bierzemy te dane, trenujemy, walidujemy i testujemy, a na końcu wrzucamy rozwiązanie na produkcję i „dokarmiamy” na danych live. Będzie w końcu bardziej „live”.
W każdym z tych przypadków dane, które są niedokładne, błędne, nieaktualne czy nawet źle opisane mogą generować ryzyko. Jakie?
– agenci AI w oparciu o nieprawdziwe informacje podejmują decyzje, które skutkują stratami finansowymi i wizerunkowymi,
– zastosowanie modelu prowadzi do dyskryminacji niektórych grup klientów, którzy wywołują kryzys „reputacyjny”,
– rozwiązanie zamiast poprawiać jakość pracy programistów prowadzi do jej pogorszenia i zmniejszenia efektywności (np. po nakarmieniu naszym kodem, który jest delikatnie mówiąc nienajlepszy).
Często wychodzimy z błędnego założenia, że dane jakieś są, więc to nie nasz problem. Czasem, patrzymy na przepisy, bo przecież:
– RODO wymaga od nas, aby dane były prawidłowe, a to przecież jeden z elementów jakości danych,
– AI Act w art. 10 „skłania” nas do wprowadzenia dobrych praktyk w zakresie danych do systemów wysokiego ryzyka, ale raczej to są rzadkie przypadki i nie spędzamy nad tym zbyt wiele czasu.
Uporządkowane zarządzanie danymi to polisa
Tymczasem zarządzanie danymi w sposób uporządkowany to absolutny priorytet, który jest nawet wymagany ISO 42001, gdzie rekomendacja A.7 „nakazuje” wprowadzenie procesów „okołodanowych”, w tym w zakresie gromadzenia, jakości, pochodzenia i „drogi jaką przeszły dane”.
Tak naprawdę zarządzanie danymi, gdzie uwzględnimy też bezpieczeństwo informacji #nis2, to nasza polisa. Na wielu frontach. Dobre dane to lepsze rezultaty biznesowe, a to przekłada się także na satysfakcję z pracy.
Do tego trzeba podejść jak najszybciej, ale nie w sposób rewolucyjny. Małymi krokami, żeby nie wylać „dziecka z kąpielą”. To ważne, bo utrata zaufania i zainteresowania interesariuszy, to najgorsze co może się nam przytrafić.

Michał Nowakowski – doktor nauk prawnych i radca prawny z 13-letnim doświadczeniem w obszarze innowacji finansowych oraz nowych technologii. Specjalizuje się w zagadnieniach związanych z wdrażaniem przepisów i regulacji dotyczących danych, AI oraz budowaniu w organizacjach rozwiązań data governance i data management. Od 2022 roku jest prezesem zarządu PONIP. Pracował zarówno w sektorze publicznym, jak i prywatnym, gdzie zdobywał doświadczenie przy realizacji projektów uwzględniających szeroko rozumiane ryzyka ICT oraz outsourcing i ochronę prywatności. Był związany także z instytucjami finansowymi, w tym z bankami, gdzie doradzał m.in. zespołom R&D, bezpieczeństwa oraz IT. Autor książek, artykułów naukowych i prelegent na konferencjach i wydarzeniach branżowych. Prywatnie miłośnik kodowania i ML. Współzałożyciel i prezes zarządu spółki GovernedAI, zajmującej się tworzeniem i wdrażaniem bezpiecznego oprogramowania wykorzystującego systemy uczenia maszynowego i głębokiego, w tym tzw. generatywną sztuczną inteligencję.
Profil na LinkedIn: https://www.linkedin.com/in/mjnowakowski/?originalSubdomain=pl