Wspólny język, to połowa sukcesu, jak Data Scientist łączy technologię z biznesem
Zazwyczaj jednak eksperci skupiają się głównie na umiejętnościach technicznych, takich jak programowanie, stosowanie algorytmów, praca z danymi czy też analiza danych.
Zapominają przy tym o drugiej ważnej grupie umiejętności, które powinni posiadać specjaliści Data Science. To dzięki nim mogą bowiem przygotowywać lepsze produkty dla swoich klientów.
Mowa o umiejętnościach miękkich. Przyjrzyjmy się im dokładniej i sprawdźmy, co tak naprawdę oznaczają oraz dlaczego warto na nie zwrócić szczególną uwagę.
Rozumienie procesów biznesowych
Data Scientist nie tworzy modelu czy algorytmu tylko po to, aby go stworzyć. Buduje rozwiązanie dla biznesu, dla kogoś, kto będzie wykorzystywał wyniki jego działania. Dlatego tak ważne jest zrozumienie, jakich procesów biznesowych będzie dotykało nasze rozwiązanie.
Jest to o tyle istotne, ponieważ wtedy nasz ekspert będzie mógł bardziej precyzyjnie dobrać zmienne, dane, algorytm a przede wszystkim bardziej efektywnie wpleść rozwiązanie w cały proces. Unikniemy wówczas sytuacji, w której moglibyśmy powiedzieć, z przymrużeniem oka: „Operacja się udała, pacjent zmarł”.
Umiejętność prezentowania wyników
Każdy Data Scientist zna ten moment, gdy przygotował dane, przeanalizował je, przygotował model, sprawdził wiele różnych algorytmów oraz zmiennych i może powiedzieć, że ma gotowy wynik i czeka tylko, żeby wdrożyć rozwiązania na produkcję. Tylko wtedy przychodzi czas prezentacji wyników biznesowi, zanim przekażemy model do realizacji. I tutaj bardzo często pojawia się problem.
Okazuje się, że specjaliści Data Science są tak bardzo skupieni na kwestiach techniczno-algorytmicznych, że nie potrafią w sposób jasny i przede wszystkim prosty przekazać swoich wyników użytkownikom biznesowym. Czasem problemem już nie jest sama treść, a sposób jej prezentacji.
Przygotowują prezentacje w PowerPoint i zapominają o tym, aby poukładać wszystkie informacje w bardzo logiczny ciąg, zaznaczyć najważniejsze kwestie, dopilnować, aby wykresy był adekwatne do tego, co mówimy.
Czy też przygotowują dokument, który opisuje zastosowane podejście i okazuje się, że po prostu jest on nieczytelny. Brakuje w nim akapitów, oznaczenia najważniejszych informacji, formatowania tekstu, tytułów podrozdziałów itp.
Wszystko to powoduje, że odbiorcy ciężej znaleźć potrzebne informacje i gorzej odbiera prezentowany mu materiał.
Czytaj także: Program Analityczno-Badawczy WIB, bankowość w epoce robotów
Umiejętność wytłumaczenia zastosowanych algorytmów
Czasami w trakcie rozmowy rekrutacyjnej zadaję pytanie z prośbą o wytłumaczenie któregoś algorytmu. Mimo że widać, iż kandydat ma doświadczenie w pracy z tym algorytmem, wie, co on oznacza i jak go stosować, ale często nie potrafi w prosty sposób wytłumaczyć, na czym on polega.
I choć klienci biznesowi zazwyczaj nie muszą wnikać w szczegóły i orientować się, na czym polega dany algorytm, to jednak często trzeba z nimi dyskutować i rozmawiać o zastosowanym rozwiązaniu. Wówczas i tak będziemy musieli opowiedzieć, w jaki sposób algorytm wychwytuje pewne zależności lub tego nie robi.
Czy też będąc na stanowisku Seniora, pojawi się potrzeba wytłumaczenia któremuś członkowi zespołu, na czym polega dane rozwiązanie. Pamiętajmy, że nie każdy będzie posiadał zaawansowaną wiedzę matematyczną i musimy umieć w taki sposób przekazać najważniejsze informacje, aby były one zrozumiałe dla naszego odbiorcy.
Prowadzenie dyskusji dot. zastosowanych zmiennych i podejścia do problemu
Często, aby zbudować odpowiednie rozwiązanie, Data Scientist powinien porozmawiać z ekspertami z danego obszaru, czyli pozyskać tak zwaną wiedzę domenową. Powinien dowiedzieć się, jakie są ich doświadczenia, przedstawić to, co mówią dane i rozmawiać o tym, które podejście jest najlepsze z możliwych do implementacji.
Nie każdy będzie posiadał zaawansowaną wiedzę matematyczną i musimy umieć w taki sposób przekazać najważniejsze informacje, aby były one zrozumiałe dla naszego odbiorcy.
Może się zdarzyć, że komuś po drugiej stronie będzie bardzo zależało na tym, aby uwzględnić pewne założenia czy też zmienne. Dobry Data Scientist potrafi to wychwycić, przeanalizować te potrzeby i zestawić je z możliwościami, które dają nam dane, proces biznesowy oraz środowisko techniczne.
Krytyczne podejście do wyników i danych
Popularne jest stwierdzenie, że proces czyszczenia i przygotowania danych zajmuje 80% czasu projektu machine learning. To świadczy o tym, że dane mogą nie raz nas zwieść i nie zauważymy w nich błędów, które będą wpływać na nasz model. To też pewna przestroga i musimy mieć na uwadze, że dane nie zawsze odzwierciedlają proces biznesowy, którym się zajmujemy.
Dlatego analizując wyniki modelu czy analiz, należy cały czas krytycznie się im przyglądać. Może okazać się, że nasz słaby wynik nie jest rezultatem podanych zmiennych, ale efektem zmian w biznesie i rzeczywistości.
I też odwrotnie, nasz bardzo dobry wynik może być efektem błędnie przygotowanych danych lub jakiegoś przecieku, który w nich wystąpi. Nie bez powodu często żartuje się, że jeśli pierwszy wynik ma ponad 90%, to nie jest dobrze.
Czytaj także: Kongres Gospodarki Elektronicznej: bez świata cyfrowego nie da się już efektywnie funkcjonować w społeczeństwie i w gospodarce
Kreatywność
Feature Engineering, czyli tworzenie nowych zmiennych jest sztuką. Trudno powiedzieć komuś, kto dopiero zaczyna swoją przygodę z Data Science jak tworzyć takie zmienne. Tutaj właśnie potrzebna jest kreatywność i wiedza domenowa. Proces doboru danych nie jest prosty i nie podlega ścisłym regułom.
W Data Science zazwyczaj nie ma utartych szlaków, więc trzeba za każdym razem znajdować nowe najlepiej pasujące rozwiązania.
Właśnie wtedy należy zastanowić się, co może być pomocne, a co nie. Czy informacja o liczbie dni od ostatniej kampanii klienta pomoże w wykrywaniu potencjalnego churna, a może lepiej sprawdzi się zmienna dotycząca opiekuna klienta? A być może nie jest istotna liczba dni od ostatniej kampanii, tylko liczba tygodni albo liczba dni, ale roboczych?
Dodatkowo dane, z których korzystają eksperci Data Science zazwyczaj nie są idealne co może negatywnie wpływać na model. Wówczas trzeba rozwiązać ten problem albo od strony danych, albo algorytmu.
Kreatywność przydaje się również wtedy, kiedy trzeba obejść niestandardowe problemy, kiedy zwykły XGBoost już nie wystarczy. Wówczas należy wykorzystać inne metody, czasem połączyć kilka w jeden algorytm, a w innej sytuacji przetestować wiele rozwiązań, aby znaleźć to właściwe. W Data Science zazwyczaj nie ma utartych szlaków, więc trzeba za każdym razem znajdować nowe najlepiej pasujące rozwiązania.
Umiejętności miękkie pojawiają się w różnych momentach życia Data Scientista. Ich rozwój trwa cały czas, nie wystarczy kurs na jednej z popularnych platform, jak Udemy i czy Courser. Kompetencje techniczne i miękkie są naczyniami połączonymi. Każde z nich trzeba sukcesywnie napełniać, aby rozwój był zbalansowany. Przychodzą one wraz z ogólnym wzrostem doświadczenia i ważne jest, aby zwracać na nie uwagę, szlifować i trenować.
Czytaj także: Kongres FTB 2020 | Prezentacja | Automatyzacja współpracy z klientem – co zmieniła i zmieni pandemia?
Nie mniej istotne jest również, aby firmy zaczęły zwracać uwagę na poziom różnych kompetencji swoich pracowników i wspierały ich w jego podnoszeniu. Na nic zda nam się dobry model, jeśli nikt nie będzie potrafił wytłumaczyć jak działa, czy odpowiada na potrzeby biznesu oraz co tak naprawdę oznaczają jego wyniki? Zwłaszcza kiedy rynek finansów i bankowości podlega wielu regulacjom.
Czas, aby Data Scientist był człowiekiem, do którego można mówić nie tylko nazwami algorytmów.
Barbara Sobkowiak,
Data Science Manager,
Britenet Sp. z o.o.