Danych trzeba używać
W jaki sposób dbać o jakość danych niezbędnych do przeprowadzania wiarygodnych analiz? Mariusz Gromada, kierownik Zespołu Analitycznego Wsparcia Kampanii, Departament Zarządzania Kampaniami w Banku Millennium.
Dosyć często miałem okazję odpowiadać na to pytanie i zawsze moją główną radą było, aby danych używać. Wykorzystywanie danych, to pierwszy krok do identyfikacji nieprawidłowości w danych. Nie istnieje system informatyczny bez błędów, hurtowania danych bez błędów w danych – natomiast z pewnością istnieją nieujawnione błędy, których ujawnienie to sytuacja pozytywna. Największym ryzykiem dla jakości danych w środowisku BI jest wytworzenie w organizacji dodatkowego obiegu informacji, bazującego na alternatywnych źródłach. Analogicznie – największym wyzwaniem dla projektów wdrożenia hurtowni danych jest skuteczne zastąpienie już funkcjonującego obiegu informacji, co jest bezpośrednią konsekwencją braku zaufania do nowych źródeł – i koło się zamyka…
Jak temu zaradzić? Kluczowe jest, aby jednostka odpowiedzialna za obszar BI działała w sposób szybki, elastyczny, bardzo pro-biznesowy, wychodziła naprzeciw potrzebom użytkowników z różnym poziomem wiedzy technicznej i biznesowej. Jednostka BI musi w pełni akceptować, że jakość danych jest inaczej rozumiana przez odbiorców biznesowych (aktualność/terminowość, poprawność/kompletność, czytelność, szybkość/dostępność, spójność) oraz przez partnerów IT (główny nacisk na integralny i znormalizowany model danych, elastyczność struktur danych, wydajność rozwiązania). Ponadto jednostka BI musi odpowiednio reagować na zgłoszone błędy, skutecznie i szybko je poprawiając. Nie ma nic gorszego dla procesu poprawy jakości danych niż bardzo długi okres rozwiązywania problemu. Taka sytuacja powoduje irytację odbiorców, skutecznie ich zniechęcając do zgłaszania kolejnych błędów w przyszłości, oraz motywując do wytworzenie alternatywnego obiegu informacji.
Analiza błędów i ich naprawa musi być realizowana z naciskiem na architekturę aplikacji IT (łącznie z usługami integrującymi się w czasie rzeczywistym), w tym weryfikację i eliminację redundancji danych, stosowanie kontroli i walidacji zarówno na etapie wprowadzania danych, jak też na styku aplikacji i systemów. To są podstawy, których spełnienie jest niezbędne, aby zacząć rozważać wdrażanie systemów kontroli jakości danych. Bardzo dużą część błędów można wykryć już na etapie pozyskiwania danych, w sposób automatyczny, poprzez odpowiednie zaprojektowanie i użycie scenariuszy kontrolnych.
Scenariusze kontrolne opisują te sytuacje, co do których przewidujemy, że mogą się wydarzyć. Dotyczy to zarówno technicznych aspektów jakości, takich jak spójność/integralność danych, poprawność formatu pól, sumy kontrolne, wartości ekstremalne, jak i niektórych kwestii biznesowych – np.: reguły eksperckie, rozkłady wartości, trendy, czy odchylenia od zdefiniowanych wzorców. Rynek oferuje wiele rozwiązań klasy Data Quality, w równie wielu przypadkach organizacje wytwarzają takie rozwiązania samodzielnie.
Więcej w najbliższym numerze Miesięcznika Finansowego BANK.
Marcin Złoch