Ciemna Strona danych
Jednak w głębi planety, w ukrytym i niedostępnym miejscu, żyła mroczna siła, której jedynym celem było zniszczenie harmonii, w której trwali mieszkańcy. Ta mroczna istota każdego dnia stawała się coraz większa i silniejsza. Tylko kwestią czasu było, w którym momencie objawi się światu i spróbuje zniszczyć pokój i dobrobyt.
Na szczęście jasna strona planety miała obrońców − świadomych i wyczuwających zagrożenie Jedi Danych, którzy postanowili zawczasu rzucić wyzwanie Ciemnej Stronie. Jedi Danych nie chcieli dopuścić, aby Ciemna Strona zebrała tyle sił, by nie mogli jej już pokonać.
Dark Data
Można by powyższe opowiadanie uznać za fantastykę, gdyby nie fakt, że podobna sytuacja występuje niemal w każdej firmie. W organizacjach, w których pracujemy, również żyje taka „istota” będąca po Ciemnej Stronie danych.
Dark Data, bo o nich mowa, pozostają w cieniu sławniejszych pojęć, takich jak Big, Small czy Smart Data. Powinniśmy Ciemnym Danym poświęcić więcej uwagi. Dlaczego? Bo od tego, jak sobie z nimi poradzimy, zależy przyszłość analityki, raportowania, integracji danych, machine learningu czy w końcu zdolności do budowania organizacji opartych na danych.
Czym w takim razie są Ciemne Dane? Dark Data to słabo znany obszar, umykający zarówno teoretykom, jak i praktykom biznesowym.
Nie ma jednej spójnej definicji opisującej ten fenomen, ale ciekawie wyjaśnia je Gartner w swoim słowniku IT jako: „Zasoby informacyjne, gromadzone i przetwarzane przez organizacje podczas ich codziennej aktywności biznesowej, które na ogół nie nadają się do wykorzystania w żadnym sensownym celu„.
Najprościej mówiąc, Dark Data to wszystkie dane, które zbieramy na naszych komputerach, w bazach danych czy w Internecie, a których nigdy później nie wykorzystujemy.
Ciemna Strona silna jest
Kluczowym jest, że Dark Data stanowią, według różnych szacunków, od 60% do 80% danych jakie posiadają firmy. Z kolei, jeśli chodzi o treści znajdujące się w Internecie, ten wskaźnik wzrasta do ponad 90%.
Zauważmy więc, że Dark Data jest znacznie więcej niż danych, których realnie używamy. Dlaczego o nich nie mówimy? Najczęściej nie wiemy o ich istnieniu lub ignorujemy tę wiedzę. Po prostu wydają się nieważne.
Źródeł powstawania Dark Data jest wiele. Pierwszym z nich jest rozwijający się dynamicznie Internet Rzeczy (ang. Internet of Things), czyli wszystkie urządzenia podłączone do sieci, które nieustannie zbierają i przesyłają informacje.
Żeby ocenić skalę tego zjawiska zauważmy, że w 2025 do sieci ma być podłączone 42 miliardy urządzeń IoT, które wygenerują 80 zettabajtów danych.
Nie tylko urządzenia generują Ciemne Dane. Drugim obszarem są informacje wytwarzane i przechowywane przez pracowników na ich firmowych komputerach. Setki i tysiące arkuszy kalkulacyjnych, dokumentów tekstowych czy po prostu zwykłych notatek.
Wiele z tych plików występuje nie tylko w jednej, a w wielu kopiach, na dyskach twardych, na poczcie e-mail czy w przestrzeniach chmurowych. Skalę tego zjawiska łatwo sobie wyobrazić, ale ciężko oszacować.
Oczywiście do powyższej listy dodać trzeba informacje wytwarzane w Internecie, w mediach społecznościowych, serwisach informacyjnych czy portalach z opiniami.
Na koniec, nie możemy pominąć, że część danych wytwarzanych podczas operacyjnej działalności przedsiębiorstw, przechowywanych w bazach i hurtowniach danych, pozostaje niewykorzystane. W takiej sytuacji również one przechodzą na Ciemną Stronę − zbieramy je, ale z nich nie korzystamy.
Nigdy nie lekceważ potęgi Ciemnej Strony
Można zapytać: a jakie to wszystko ma znaczenie? Ciemne Dane istnieją od dawna i dotychczas radziliśmy sobie nie przywiązując do nich wagi. Zastanówmy się jednak nad konsekwencjami istnienia Dark Data dla organizacji biznesowych. Zwrócę uwagę tylko na cztery, najbardziej kluczowe konsekwencje.
Chcemy budować organizacje oparte na danych (ang. Data-Driven), a to wymaga od nas, przed podjęciem decyzji biznesowej, dogłębnej analizy posiadanych informacji. I tu pojawia się problem.
Skoro analizujemy tylko niewielki wycinek dostępnych nam danych, to nie możemy mówić, że statystyka popiera nasze decyzje. Nie jesteśmy oparci na danych, tylko zainspirowani danymi (ang. Data-Inspired). I to tylko tymi, do których mieliśmy łatwy dostęp.
Z drugiej strony, dziś już nikogo nie trzeba przekonywać, że w danych kryje się przewaga konkurencyjna. A im więcej danych, tym łatwiej tę przewagę odnaleźć i wykorzystać. Skoro więc marnujemy większość danych, które moglibyśmy użyć, marnujemy też potencjał jaki z nich wynika.
Trzecim, ważnym aspektem są ryzyka związane z Dark Data. Zastanówmy się, czy pracownicy naszej firmy na swoich komputerach i skrzynkach e-mail mają pliki Excel z informacjami wrażliwymi, np. danymi osobowymi? Odpowiedź jest prosta, a w czasach RODO, czy nasilonych włamań elektronicznych jest również potencjalnie niebezpieczna.
A jak wiele z tych informacji na laptopach, czy w słabo zabezpieczonych (bo nieużywanych) bazach danych może mieć kluczowe znaczenie i być tajemnicą przedsiębiorstwa? Szansa, że te informacje wpadną w niepowołane ręce jest znacznie większa niż w przypadku danych, którymi na co dzień się opiekujemy.
No i w końcu aspekt kosztowy. Usłyszałem na jednej z konferencji zdanie: Jeżeli przechowujesz dane i z nich nie korzystasz, to działasz na niekorzyść firmy, w której pracujesz.
Przechowywanie danych kosztuje, ale samo w sobie nie daje firmie żadnych dodatkowych szans czy możliwości. Jest więc bezpodstawnie ponoszonym kosztem.
Rada mistrza Yody
Co należy zrobić z Dark Data? Świetnie na to pytanie odpowiedział Mistrz Yoda w epizodzie V. części Gwiezdnych Wojen: Rób albo nie rób. Nie ma próbowania (ang. Do, or do not. There is no try). W obszarze Ciemnych Danych również możemy przyjąć dwie strategie.
Pierwsza – „Rób” oznacza analizę przechowywanych Dark Data i przeprowadzenie ich na jasną stronę. Proces ten jest długotrwały, kosztowny i wymagający.
Po pierwsze, musimy odnaleźć, skatalogować i określić potencjalną przydatność przechowywanych danych.
W drugim etapie trzeba je będzie oczyścić i zintegrować z już istniejącymi zbiorami analitycznymi.
Na końcu trzeba te dane zacząć wykorzystywać w analityce wizualnej i statystycznej, budowie procesów biznesowych oraz uzyskiwaniu przewagi konkurencyjnej.
Druga strategia – „Nie rób” jest znacznie prostsza. Zakłada, że po prostu pozbywamy się Dark Data, usuwając je z organizacji. Choć na pierwszy rzut oka może się to wydawać szalone, zauważmy, że rozwiązuje to zarówno kwestię ponoszonych przez organizację kosztów, jak i ryzyk związanych z wyciekiem lub złym wykorzystaniem tych danych.
Z drugiej strony trzeba wyraźnie zaznaczyć, że strategię „Nie rób” należy stosować ostrożnie. Oczywiście redundantne dane możemy usunąć od razu, ale zanim pozbędziemy się pozostałych Dark Data − warto poważnie się zastanowić. Z dużym prawdopodobieństwem usuwając je stracimy szansę na zbudowanie w przyszłości przewagi konkurencyjnej.
Jasna strona wzywa
Zastanawiałem się długo, czy pisanie o Dark Data ma sens. Czy czytający nie machną ręką i nie powiedzą „to nieważne, to nie ma znaczenia”?
Proponuję więc mały test: zajrzyjmy na nasze laptopy, skrzynki e-mail i przestrzenie w chmurze. Usuńmy z nich tylko to, co na pewno jest zbędne.
Stare wersje prezentacji z informacjami o wynikach naszej firmy. Pliki Excel z wrażliwymi danymi, z których już nie korzystamy. E-maile z załącznikami, które i tak przechowujemy na dysku komputera. W końcu, stare raporty z wynikami finansowymi organizacji, których już nie potrzebujemy.
Sam wykonałem to ćwiczenie i zarówno moja poczta, jak i wykorzystywana przestrzeń chmurowa zmniejszyły się o połowę. Zostałem Jedi Danych. Proponuję to samo każdemu, kto czyta ten tekst.
Również nasze organizacje mogą stanąć po jasnej stronie: zacząć analizować te dane, które mają wartość, a resztę po prostu usunąć. I tak potęga Ciemnej Strony danych zostanie pokonana.
Łukasz Nienartowicz,
Head of Business Intelligence,
Britenet