Nie ma dróg na skróty w budowie firmy opartej na danych

Nie ma dróg na skróty w budowie firmy opartej na danych
Łukasz Nienartowicz Britenet Sp. z o.o
Udostępnij Ikona facebook Ikona LinkedIn Ikona twitter
Budowa domu to złożone i wymagające przedsięwzięcie. Jego realizacja jest wieloetapowa i obejmuje opracowanie projektu, uzyskanie zezwoleń, wybór odpowiedniej firmy budowlanej, koordynowanie pracy różnych fachowców oraz kontrolowanie budżetu, który ostatecznie powinien pokryć wszystkie koszty. Wyobraźmy sobie sytuację, w której odwiedza nas przedstawiciel handlowy konkurencyjnej firmy budowlanej i składa deklarację: "Ja zbuduję ten dom za 50% budżetu i skrócę czas budowy o dwie trzecie". Jaka byłaby nasza reakcja?

#ŁukaszNienartowicz: Największa zuchwałość „magików”, którzy są w stanie zrobić wszystko za pół ceny, to oferowanie klientowi tylko pierwszej warstwy integracyjnej (Data Stage) jako gotowej hurtowni #CyfryzacjaFirmy #DigitalizacjaFirmy #BusinessIntelligence @Britenet_

Część przyjęłaby takie zapewnienia z niedowierzaniem i najchętniej od razu wyprosiłaby sprzedawcę za drzwi. Reszta zapewne zaczęłaby szukać różnic pomiędzy pierwotną wersją projektu − a tą zaproponowaną przez „czarodzieja sprzedaży”.

Sprzedawcy marzeń

Z mojego doświadczenia wynika, że w obszarze Business Intelligence również nie brakuje takich „magików”, którzy są w stanie zrobić wszystko za pół ceny. Jak to możliwe?

Jedni zamiast know-how w obszarze ekosystemów danych dostarczą tylko zespół programistów. Natomiast problemem realizacji projektu i odpowiedzialnością za jego efekty obarczą klienta.

Drudzy będą przekonywali, że zamiast hurtowni danych lepiej wdrożyć Data Lake, który jest nowocześniejszy i bardziej na czasie. I rzeczywiście stworzenie Data Lake stanowi ok. 20% kosztu i czasu budowy hurtowni danych. Niestety jest to też 10% jej funkcjonalności, co nie jest komunikowane wprost, tylko sami musimy doszukiwać się tej informacji napisanej „małym druczkiem”.

I największa zuchwałość, czyli oferowanie nieświadomemu klientowi tylko pierwszej warstwy integracyjnej (Data Stage) jako gotowej hurtowni. Bo resztę zamodeluje się w narzędziu raportowym.

Oczywiście podobne przykłady można mnożyć. Kluczowe jest natomiast to, że w budowaniu firmowego ekosystemu danych nie ma dróg na skróty! Podobnie jak w przypadku budowy domu, jest to złożony i czasochłonny proces. Dzieje się tak, ponieważ nawet w największym uproszczeniu, ekosystem danych obejmuje minimalnie sześć obszarów.

Integracja danych

Pierwszy obszar odpowiada za integrację danych ze wszystkich systemów IT w organizacji. Na tym etapie zależy nam tylko na skopiowaniu 1:1 tabel z systemów źródłowych. Efektem tego procesu jest wytworzenie, w zależności od potrzeb, systemu Data Stage lub Data Lake. Po przybliżeniu przebiegu tego procesu oczywistym staje się, że systemy te są bardzo tanie, ponieważ nie wymagają dużego nakładu pracy.

Warstwa integracji ma dwa kluczowe cele w ekosystemie danych. Po pierwsze przygotowuje dane do przetwarzania na potrzeby hurtowni danych, odciążając tym samym systemy źródłowe. Po drugie w tej warstwie niewielkim kosztem możemy przechowywać wszystkie dane, jakie posiada organizacja, również te mniej ważne, które nie znajdą się w hurtowni danych.

Drugim obszarem występującym najczęściej pomiędzy warstwą integracji a warstwą hurtowni są procesy zapewniające jakość danych. Dane, które przenosimy do kolejnych etapów przetwarzania muszą być wiarygodne i spójne. Na przykład, jeśli numer pesel ma więcej niż 11 cyfr, numer telefonu jest za krótki lub adres e-mail nie posiada właściwego formatu, to należy takie informacje odrzucić lub oznaczyć jako niewiarygodne.

Pamiętajmy, że w systemach IT występują czasami nieścisłości, chociażby w systemie księgowym możemy posiadać fakturę sprzedaży, ale w naszej bazie klientów nie ma odpowiadającego jej kontrahenta. Taka niespójność danych wymaga podobnych działań jak na podanym wyżej przykładzie.

Dane biznesowe

Trzeci obszar ekosystemu to hurtownia danych, która jest najbardziej skomplikowanym, ale i najważniejszym elementem całej układanki. To w niej znajdują się kluczowe informacje, jakimi dysponuje organizacja i to ona powinna stanowić „jedyne źródło prawdy” w kontekście biznesowej analizy danych. Zasadniczym aspektem różniącym hurtownię od warstwy integracji jest sposób zgrupowania danych. Zakładając, że jeśli organizacja posiada 3 systemy finansowe, to w warstwie integracyjnej będziemy mieli 3 osobne tabele z fakturami. Natomiast w warstwie hurtowni danych wszystkie te faktury zostaną umieszczone w jednej tabeli. Jeśli będziemy chcieli policzyć sumę wartości wszystkich faktur, będziemy musieli się odwołać tylko do niej.

Innymi słowy, dane w warstwie integracyjnej są zgrupowane w zależności od systemów źródłowych, natomiast dane w hurtowni są zgrupowane według ich zastosowania biznesowego. Oczywiście dane w hurtowni są odpowiednio przetworzone, a proces ich przygotowywania jest pracochłonny i kosztowny.

Kolejnym obszarem ekosystemu danych są Data Marty. Data Mart to pewien wycinek hurtowni danych przygotowany pod bardzo konkretne zastosowanie biznesowe. Mogą więc istnieć osobne, tematyczne Data Marty: dla marketingu, sprzedaży i logistyki. Oczywiście może się zdarzyć, że część danych będzie w nich powielona. Nawet dla jednego obszaru biznesowego możemy mieć kilka Data Martów.

Na przykład w obszarze marketingu jeden Data Mart może być przygotowany na potrzeby raportowania, a drugi dla narzędzia automatyzującego komunikację z klientami. Zauważmy, że część wskaźników biznesowych może być wyliczona dla każdego Data Martu w odmienny sposób i w konsekwencji przyjmować różne wartości. A to właśnie wartości wyliczalne, gotowe do zastosowania wprost w warstwach raportowania i aplikacji oraz przygotowanie danych w modelu, który dla tych warstw jest możliwie optymalny, jest celem istnienia Data Martów.

Wykorzystanie danych

Wszystkie poprzednie warstwy przygotowały dane do wykorzystania biznesowego. Dwa ostatnie obszary ekosystemu danych to miejsca, w których nareszcie możemy zrobić z nich pożytek. Mamy więc obszar analityki danych, w którym znajdzie się miejsce zarówno dla cyklicznych raportów sprzedaży, wizualnej analizy danych za pomocą nowoczesnych narzędzi self-service BI, jak i analizy statystycznej przy pomocy języków R i Python.

Odbiorcą danych mogą być także aplikacje biznesowe. Wykorzystują one wiarygodne i odpowiednio przygotowane w poprzednich warstwach dane do wspierania procesów biznesowych organizacji. Innymi słowy, dane mogą napędzać analityczne systemy CRM, systemy automatyzacji marketingu czy zaawansowane systemy logistyczne.

Osobną kategorią są w tej warstwie modele machine learning, których zadaniem jest przygotowywanie rekomendacji dla pracowników lub wręcz samodzielne podejmowanie decyzji. Pamiętajmy, że dla modeli tego typu jakość i wiarygodność danych jest krytyczna i bez niej są bezużyteczne.

Podsumowanie

Powyższy przegląd składowych współczesnego ekosystemu danych został przedstawiony stosunkowo pobieżnie i wymaga szerszego wyjaśnienia. Postaram się przybliżyć bardziej szczegółowo każdy z obszarów w kolejnych artykułach. 

Ten natomiast chciałbym zakończyć przestrogą. Jeśli ktoś będzie chciał zaoferować zaprojektowanie i zbudowanie ekosystemu danych w Państwa firmie, to proszę go zapytać, czy ma zamiar uwzględnić w swoim rozwiązaniu wymienione przeze mnie sześć obszarów.

Mam świadomość, że budowanie kolejnych warstw, od integracyjnej do Data Martów, jest trudnym procesem, który pozornie nie przynosi organizacji korzyści. Natomiast jeśli chcemy oprzeć naszą organizację na danych, ich analityce i machine learningu, to nie ma na to innej możliwości. Z budowaniem firmy opartej na danych jest podobnie jak z budowaniem domu – jeśli ma przetrwać, to musi mieć solidne fundamenty.


Łukasz Nienartowicz,

Head of Business Intelligence, Britenet Sp. z o.o.

Źródło: aleBank.pl