Raport Specjalny – IT@BANK 2023 | Technologie – Ab Initio | Sukces uczenia maszynowego zależy w znacznej mierze od danych
Maciej Durzewski
Konsultant Ab Initio
Spektakularne efekty, jakie udało się uzyskać przy użyciu takich aplikacji, jak ChatGPT czy Midjourney sprawiły, że uczeniu maszynowemu zaczęto przypisywać szczególne cechy. Nieprzypadkowo w potocznych dyskusjach częściej spotykamy pojęcie „sztuczna inteligencja”, jest ono bardziej medialne niż uczenie maszynowe, sugerując przełamanie pewnego tabu, jakby technologia wkroczyła w obszary zarezerwowane dla homo sapiens. Tymczasem określanie ChataGPT i podobnych wdrożeń mianem AI jest dyskusyjne, mamy wszak do czynienia raczej z ewolucyjnym rozwinięciem znanych od kilku dekad modeli językowych, niż z pojawieniem się nowej rzeczywistości w sferze algorytmów. Te ostatnie nie są zresztą szczególnie zaawansowane, w mechanizmach obsługujących ChataGPT i pokrewne rozwiązania nadaremnie szukać szczególnie zaawansowanego wnioskowania. To, co pozwoliło tym stosunkowo prostym instrumentom osiągnąć sukces wizerunkowy, to dostęp do olbrzymich zbiorów danych, zgromadzonych w internecie oraz baza sprzętowa, umożliwiająca uczenie algorytmów w oparciu o te zasoby, z drugiej zaś… niedoskonałość naszych umysłów. Tylko z tych powodów edytowane przez ChatGPT materiały były w stanie wywołać „efekt WOW” u sporej części ludzkiej populacji…
Dane to podstawa sukcesu
Organizacje uświadomiły sobie, że sam algorytm w mniejszym stopniu determinuje skuteczność modeli niż dane. Modelowanie ML można w największym skrócie porównać do budowy modelu auta czy samolotu, który następnie badany jest w tunelu aerodynamicznym. Tak, jak przygotowanie trójwymiarowej sylwetki pojazdu i umieszczenie jej w środowisku testowym umożliwia przeprowadzenie testów w zasymulowanych warunkach, podobnie model uczenia maszynowego upraszcza obraz rzeczywistości, ułatwiając przetwarzanie gigantycznych zasobów danych w jak najkrótszym czasie.
Świadomość tego faktu przesuwa punkt ciężkości w kierunku danych, na których brak instytucje rynku finansowego nie mogą narzekać, stawiając przed nimi niełatwe zadanie ustalenia, które dane będą szczególnie wartościowe i przy jakich procesach. Należy uwzględniać fakt, iż logika współczesnych modeli bazuje na danych zwektoryzowanych, dlatego niemożliwe jest modelowanie tego, czego nie da się zawrzeć w wektorze. Ekspresja danych sprowadza się do tego, żeby zamodelować wszystkie właściwości jako punkty w n-wymiarowej przestrzeni, co stanowi istotne ograniczenie (choć istnieją algorytmy wykorzystujące inne ich reprezentacje). To bardzo istotne konstatacje, jeśli weźmiemy pod uwagę, iż korzystanie z ML w biznesie determinują dwie przesłanki: maksymalizacja zysków i redukcja kosztów. Skoro dostęp do danych i ich odpowiednie ustrukturyzowanie, w tym przekładalność na wektory, są kluczowe dla optymalizacji, lepiej przekierować zasoby w pierwszej kolejności na ten cel, i dopiero mając świadomość, czym dysponujemy, dobierać pod tym kątem odpowiednie narzędzia do uczenia maszynowego.
Ponadto prócz semantycznej jakości danych, należytą uwagę winno się zwrócić także na ich techniczną jakość. W kontekście danych zwektoryzowanych oraz sieci neuronowych przykładami takich czynników jest rozkład poszczególnych punktów w przestrzeni, który umożliwia podzielenie zbiorów minimalną liczbą hiperpłaszczyzn, oraz kolejność przykładów w zbiorze treningowym zapewniającą stabilność procesu uczenia. Musimy jednak pamiętać, iż jest to tylko wierzchołek góry lodowej wielu czynników wpływających na rezultat.
Złudna wiara we wszechmoc data science
Wiele organizacji popełnia poważny błąd, traktując data science jako specjalność odrębną od wiedzy dziedzinowej, jakiej dotyczą poszczególne kategorie informacji. Nie można mówić o uniwersalnej wiedzy na temat danych, nawet w ramach jednej instytucji. Niestety, wraz ze ślepą wiarą w nadzwyczajne umiejętności data scientistów, a z drugiej strony narastającym deficytem informatyków i rywalizacją przedsiębiorstw o nich, mamy do czynienia z sukcesywnym upraszczaniem modeli ML, by były zrozumiałe dla jak najszerszego grona. Wiąże się to z iście magicznym myśleniem, jakoby człowiek musiał rozumieć każde posunięcie swego wirtualnego asystenta i umiał je wyjaśnić, inaczej mamy do czynienia z przysłowiową „czarną skrzynką”.
Taka filozofia prowadzi na manowce z dwóch przyczyn. Możliwe do zinterpretowania dla szerokiej grupy ludzi są algorytmy proste, wraz ze wzrostem złożoności modeli podwyższa się próg ich analizowalności, co w oczywisty sposób ogranicza wyjaśnialność nawet przez fachowców z branży IT. Po drugie, mamy często tendencję do przypisywania sztucznej inteligencji walorów moralnych – co jest wewnętrznie sprzeczne. Algorytm, jako działanie matematyczne, sam w sobie nie może być etyczny, dopiero wykorzystanie wyniku dostarczonego przezeń przez ludzi zyskuje wymiar moralny, który może ocenić prawidłowo tylko osoba mająca obszerną wiedzę dziedzinową. Dość podkreślić, że we współczesnym biznesie uchybienia natury etycznej czy compliance częściej są wynikiem braku kompetencji osób przygotowujących dany produkt aniżeli celowego działania (np. missellingu). Dlatego zamiast analizować każdy krok wykonywany przez modele ML, lepiej skupić się na tym, by w należyty sposób, od strony czysto biznesowej, jak i etycznej, posługiwać się uzyskanymi wynikami. Nie oznacza to, iż wiedza o procesach zachodzących wewnątrz samego algorytmu ma mniejsze znaczenie – każdy twórca powinien rozumieć wykreowane przez siebie narzędzie – niemniej nie może być to równoznaczne z dążeniem do prostej wyjaśnialności każdego modelu, gdyż nieuniknionym efektem ubocznym jest uproszczenie, by nie rzec sprymitywizowanie całego procesu.
Po co nam ML w firmie
Planując wdrożenie modelu uczenia maszynowego, należy najpierw postawić kilka pytań odnośnie spodziewanych wyników. Czy celem organizacji jest poprawa skuteczności podejmowanych decyzji, a może raczej ich przyspieszenie? I znów kluczową kwestią jest znajomość dziedziny, w której miałby funkcjonować dany model. Jeśli mamy do czynienia z automatyczną analizą zdolności kredytowej klientów, zaciągających ratalne kredyty niskokwotowe, czas będzie równie istotną determinantą co skuteczność. W przypadku produktów złożonych priorytetem będzie zwiększenie skuteczności decyzji, co ma niebagatelne przełożenie na przeciwdziałanie ewentualnym fraudom bądź przypadkom niewypłacalności.
Na etapie doboru właściwych rozwiązań należy też rozważyć, czy głównym celem jest usprawnienie realizowanych procesów poprzez poprawę jakości danych, czy może w planach mamy kreowanie całkiem nowych wzorców. Odpowiedzi na te pytania będą później determinować nie tylko samo wdrożenie, ale i późniejsze wykorzystanie modelu. Równie istotne jest właściwe rozumienie danych i świadomość, jakich rezultatów oczekujemy, procesując je. Przykładowo, modele ML nadają się znakomicie do monitorowania pracowników pod kątem tzw. insider threats. Analiza behawioralna jest w stanie z dużą dozą prawdopodobieństwa udzielić odpowiedzi na pytanie, czy niestandardowe zachowanie danej osoby to wynik zbiegu okoliczności, czy usiłowanie fraudu wewnętrznego. Na analogicznej zasadzie można by tworzyć modele de facto eliminujące oszustwa typu „na wnuczka”, jednak w tym przypadku pojawia się pytanie, czy i na ile bank byłby w stanie zebrać i przygotować odpowiedni zasób danych, mając na względzie zarówno ograniczenia regulacyjne, jak i zróżnicowaną wrażliwość samych klientów na profilowanie.
Jak uczyć maszynę myślenia abstrakcyjnego
Wszystkie te przyczyny sprawiają, iż optymalnym środowiskiem dla rozwoju modeli ML są rozległe procesy, gdzie za użyciem algorytmu przemawia skala i zróżnicowanie prowadzonych działań. W przypadku sektora finansowego będzie to np. bankowość inwestycyjna realizowana w takiej formule jak w Stanach Zjednoczonych, gdzie rynkowe giganty nierzadko samodzielnie zarządzają takimi składnikami majątku, jak nieruchomości pod wynajem, co zbliża je do sfery realnej gospodarki. Przyspieszenie decyzyjności ma wówczas kluczowe znaczenie, i znajduje szybkie odzwierciedlenie w wynikach finansowych. W przypadku standardowych produktów ML nie ma aż takiej szansy na rozwój, dlatego też w tym obszarze przewagę nad bankami mogą wykazywać bigtechy, które na co dzień zarządzają big data ze zróżnicowanych dziedzin gospodarki. Należy wreszcie uświadomić sobie jedną ciekawą zależność na linii człowiek-maszyna. Przewagą ludzi jest myślenie abstrakcyjne. Póki trzymamy AI pod kontrolą, zawsze człowiek znajdzie sposób, by przechytrzyć zabezpieczenia, stąd np. działania antyfraudowe mogą być realizowane przez maszyny jedynie w kooperacji z człowiekiem.
Alternatywne rozwiązanie, czyli zapewnienie maszynom pełnej autonomii, również nie jest pozbawione wad (abstrahując od tego, na ile technicznie wykonalne w określonych sytuacjach). W przeciwieństwie do człowieka, maszyna nie podlega przepisom, w tym prawa karnego, możliwość wywierania na nią wpływu jest zatem mocno ograniczona. Duet maszyna-człowiek jest jedynym skutecznym rozwiązaniem. Alternatywą może być nauczenie maszyn myślenia abstrakcyjnego, jednak pod warunkiem przyjęcia innego podejścia niż tradycyjne. Mowa tu o testowanych w ramach DeepMind rozwiązaniach z zakresu uczenia się ze wzmocnieniem. Aby jednak realizować tak ambitne działania, nie wystarczy przygotowanie danych. Niezbędne jest również wykreowanie odpowiedniego środowiska, którego algorytmy mogą się nauczyć i szukać w nim sposobów operowania. W tym momencie można by się pokusić o rozwiązywanie problemów nie tylko na podstawie danych, ale i środowiska, co otwiera nowe obszary biznesowe.