Jakość czy ilość danych dla modeli uczenia maszynowego – co jest ważniejsze?

Jakość czy ilość danych dla modeli uczenia maszynowego – co jest ważniejsze?
Michał Nowakowski. Źródło: NGL Advisory, NGL Legal
Udostępnij Ikona facebook Ikona LinkedIn Ikona twitter
W kontekście danych wykorzystywanych na potrzeby trenowania i stosowania algorytmów i modeli uczenia maszynowego czy głębokiego powiedziano i napisano wiele. Mimo to dość często pokutuje przekonanie, że im więcej danych na potrzeby trenowania, walidacji i testowania - tym lepiej. I częściowo to prawda, bo im więcej dobrych jakościowo danych, tym lepiej dla trenowanego modelu. Sama ilość danych nie będzie jednak samoistnym wyznacznikiem skuteczności czy dokładności danego modelu, a już na pewno znacząca ilość danych o złej jakości nie przyczyni się do poprawy tych wskaźników. Ważniejsza, szczególnie w tych obszarach, które "dotykają" różnych sfer człowieka, jest ich jakość, która jednak jest trudna do jednoznacznego zdefiniowania, bowiem JAKOŚĆ zależy od tego do czego chcemy wykorzystać mechanizmy uczenia maszynowego czy głębokie, a nawet "zwykłą" statystykę, pisze Michał Nowakowski.

Wpływ jakości danych na to, jak funkcjonują modele jest nie do zakwestionowania, a popularna maksyma „Garbage In, Garbage Out” znajduje zastosowanie nie tylko w kontekście etyki sztucznej inteligencji, np. biasu algorytmicznego, ale także przy mniej wyrafinowanych rozwiązaniach.

Są one kluczowe dla tych systemów, które wykorzystując proces „uczenia się” nabywają nową „wiedzę” na podstawie dostarczanych z zewnątrz danych, które następnie przekładają się na konkretne rezultaty, jak predykcje czy rekomendacje, które dany model udostępnia użytkownikowi.

V. N. Gudivada wskazuje w jednym z opracowań, że wartości odstające w zbiorze danych treningowych mogą powodować niestabilność lub brak konwergencji w procesie uczenia. Niekompletne, niespójne i brakujące dane mogą prowadzić do drastycznego pogorszenia wyniku przewidywań, a idąc nieco dalej – powodować, że przewidywania będą niedokładne a rekomendacje wprowadzające w błąd. Innymi słowy, dany model będzie do niczego, a już na pewno nie będzie spełniał celu, do którego został stworzony.

(Ważne, aby pamiętać, że nawet najbardziej zaawansowany i rozbudowany algorytm będzie beznadziejny, jeżeli nakarmimy go danymi kiepskiej jakości.)

Problemem, który jest często ignorowany w kontekście wykorzystania tzw. „systemów sztucznej inteligencji” i danych jest brak właściwego rozeznania co do potrzeb, zidentyfikowanych problemów, które model ma rozwiązać czy dostępu do danych niezbędnych do stworzenia efektywnego narzędzia.

Stosunkowo często organizacjom wydaje się, że mając ogromne ilości danych i potencjał do automatyzacji, można od ręki stworzyć rozwiązania, które wesprą każdy proces i przyczynią się do rozwiązania najtrudniejszych problemów. Zatrudnienie data scientists wydaje się bardzo często remedium na wszelkie bolączki, a rezultat ich pracy można praktycznie od razu przenieść do działu odpowiedzialnego za stworzenie modelu uczenia maszynowego czy pokrewnego.

Czytaj także: Projekt unijnego rozporządzenia ws. AI Act; czy wszystkie zmiany są potrzebne?

Problemy, problemy…

W praktyce jednak zidentyfikowanie PO CO chcemy opracować model, a także JAKI PROBLEM ma on rozwiązać jest kluczowy dla przejścia do kolejnych kroków, które obejmują m.in. identyfikację danych, które mogą posłużyć do jego wytrenowania. Jeżeli pominiemy te kroki, to nie dokonamy też oceny czy dane „pasują” do danego zastosowania, a przez to niemożliwa będzie rzetelna ocena procesu uczenia i skuteczności danego modelu. Są to więc etapy, które muszą poprzedzać gromadzenie danych, bo tylko wtedy będziemy wiedzieli czego potrzebujemy.

Najbardziej zaawansowany i rozbudowany algorytm będzie beznadziejny, jeżeli nakarmimy go danymi kiepskiej jakości

Zasadniczo jednak, jeżeli wiemy jakie problemy rozwiązujemy, to możemy zastanowić się nad tym, jakich danych będziemy poszukiwać, aby osiągnąć ten cel. Aby model był dobrze, jakkolwiek to szerokie pojęcie ‒ wytrenowany, musimy zadbać, aby miały one odpowiednie cechy, takie jak adekwatność, reprezentatywność, kompletność czy dokładność, a także powinny być możliwie wolne od błędów.

To, czy dane są błędne, powinno podlegać też dodatkowej ocenie. W idealnym świecie chcielibyśmy pozyskiwać też dane, które wolne są od tzw. biasu algorytmicznego (ludzkiego?), jednakże dane, które wykorzystujemy są najczęściej tworzone przez człowieka, rzadziej przez inne algorytmy i modele, ale nawet wtedy pośrednio przez człowieka, a to powoduje, że nasze uprzedzenia czy stronniczość zazwyczaj są przenoszone do trenowanego modelu. Choć nie powinny.

Jakość danych ma więc kolosalne znaczenie, ale też wymaga dużego zaangażowania ze strony wielu zespołów, które odpowiedzialne będą za tworzone rozwiązania, szczególnie jeżeli rozmawiamy o etycznej, odpowiedzialnej sztucznej inteligencji, która z założenia ma być wolna od uprzedzeń. Nie zawsze się nam to uda, ale próbować zawsze warto.

Czytaj także: FTBS 2022: sztuczna inteligencja oraz automatyzacja zmieniają zasady kontaktów z klientem

Źródło danych

Jeżeli więc zidentyfikowaliśmy konkretne dane, ich cechy, to pozostaje tylko je pozyskać. Niekiedy może okazać się, że dane, którymi dysponujemy w organizacji mogą do tego znakomicie się nadawać, a niekiedy musimy sięgnąć do zewnętrznych źródeł-pośredników, które pozwolą nam na ich pozyskanie. Każde z tych podejść niesie jednak ze sobą pewne ograniczenia i ryzyka, które powinniśmy uwzględnić, podejmując się próby stworzenia nowego rozwiązania opartego o sztuczną inteligencję.

Dobry model ciągle się uczy, a więc dostęp do danych – zasadniczo – powinien być nieprzerwany

W pierwszym przypadku samo posiadanie danych nie oznacza, że możemy je swobodnie wykorzystywać do naszego nowego pomysłu, bowiem wiele będzie zależało od tego jakich zgód udzielili użytkownicy i czy możliwe jest zaprzęgnięcie ich (danych, nie użytkowników) do tego konkretnego przypadku. Dane te mogą także podlegać różnym błędom, w szczególności być niekompletne lub zmodyfikowane przez samą organizację.

W drugim przypadku musimy mieć pewność, że dane pochodzą z rzetelnego źródła i odzwierciedlają „poszukiwaną” rzeczywistość, jak również nie zostały zmienione czy wzbogacone w taki sposób, że stały się bezużyteczne.

Istotne jest także upewnienie się, jakie są warunki pozyskania i przechowywania danych, a także ich wykorzystywania po upływie jakiegoś zdarzenia, jak np. wypowiedzenia umowy. Czy w takiej sytuacji będziemy mogli jeszcze z nich korzystać? Pamiętać też należy, że dobry model ciągle się uczy, a więc dostęp do danych – zasadniczo – powinien być nieprzerwany.

Sprawdzajmy

Jeżeli mamy TE dane, to i tak musimy usiąść i je zbadać, sprawdzić czy rzeczywiście są adekwatne i dokładne, dokonać stosownych annotacji czy etykietowania, a także sprawdzenia, na ile są to dane bezpieczne. Pominięcie tego kroku, to prosta droga do porażki, która może wyglądać albo tak, że model po prostu nie będzie działał, albo będzie działał wadliwie, np. dyskryminując określone grupy lub nie rozpoznając tego czego szukamy (image recognition).

Istotny będzie też nadzór człowieka i wykrywanie błędów, które model może generować

Na tym etapie istotne jest współdziałanie, zarówno data scientists, jak i osób odpowiedzialnych za samo uczenie maszynowe, a także innych osób, których wpływ na dane może być korzystny lub konieczny (w tym jednostki biznesowe, compliance czy ochrony danych). Postaram się niedługo opisać, jak można ułożyć strukturę organizacyjną, aby efektywnie zarządzać procesem wdrażania rozwiązań opartych o uczenie maszynowe i głębokie.

Taki proces może trwać całkiem długo, ale jego POZYTYWNE ukończenie może być jedną ze składowych sukcesu, choć sam algorytm też będzie miał tutaj znaczenie. Jeżeli dane – tak przynajmniej sądzimy – są „dobre”, to możemy wykorzystać je do trenowania. Po walidacji i testowaniu może jednak okazać się, że nasze założenia rozbiły się z rzeczywistością i należy dokonać korekty. To normalne. Warto przysiąść raz jeszcze i zastanowić się co poszło nie tak. Może to niewłaściwe etykiety, a może nieodpowiednio dopasowaliśmy dane?

Proces zapewnienia odpowiedniej jakości danych powinien być procesem ciągłym. Szczególnie, jeżeli korzystamy z algorytmów i modeli, które nieustannie się uczą. Z tego powodu tak istotny będzie też nadzór człowieka i wykrywanie błędów, które model może generować. To, jak to zrobimy zależy oczywiście od danej organizacji.

W skrócie to tyle, choć wielu wątków szczegółowych tutaj nie poruszyłem, bo to nie czas i miejsce, choć takie zagadnienia jak kultura data-driven czy systemy zarządzania ryzykiem oraz struktura organizacyjna są ważne w tym kontekście.

Ale o tym przy innej okazji. A dzisiaj kończę rozważania i zachęcam do dyskusji oraz kontaktu, jeżeli interesuje Was ta tematyka.

Michał Nowakowski, https://pl.linkedin.com/in/michal-nowakowski-phd-35930315, Head of NewTech w NGL Advisory oraz Counsel w NGL Legal, założyciel www.finregtech.pl, wykładowca studiów podyplomowych SGH: FinTech ‒ nowe zjawiska i technologie na rynku finansowym. Adres e-mail: michal.nowakowski@ngladvisory.com
Opinie wyrażone w artykule są osobistymi opiniami Autora i nie mogą być utożsamiane z jakąkolwiek instytucją, z którą Autor jest lub był związany.

Źródło: aleBank.pl