Nasz Blog

Niska jakość danych, rozproszone zbiory, wielu uczestników procesu? Talend + Qlik odpowiada na skomplikowane wyzwania analizy danych.

Gdy widzę tekst, w którym pojawiają się określenia typu „game changer”, a przymiotników używa się w stopniu najwyższym, to zaczynam mieć wątpliwości czy rozwiązanie, którego materiał dotyczy naprawdę jest „naj”. Zatem ocenę Talend Data Fabric, pozostawię czytelnikom, pisząc tylko, że z mojego punktu widzenia zmienia on bardzo dużo w efektywnej analizie danych. Zmienia zarówno samo rozwiązanie, jak i połączenie Talend z Qlik Sense.

Przygotowanie danych do analizy

Każdy, kto choć raz miał styczność z Business Intelligence, wie, że najbardziej czasochłonna i często bardzo irytująca jest praca poprzedzającą samą analizę. Co więcej, może zdarzyć się, że już w końcowej jej fazie odkrywamy, że coś jest „nie tak” z danymi źródłowymi.

Czyszczenie danych źródłowych

Bardzo często chodzi po prostu o ich jakość. Oczywiście nie jest to jedyny, ani nawet najważniejszy problem. Jednak mówiąc o skali tego przeważnie używam przykładu bazy CRM jednej z polskich firm telekomunikacyjnych, w której nazwa „Warszawa” była zapisywana w więcej niż jeden sposób. Tę liczbę pozostawię Wam jako zagadkę, obiecując, że na końcu ją ujawnię.

Ekstrakcja danych

Dużo większym wyzwaniem jest liczba źródeł danych i sposobów ich przechowywania oraz udostępniania. W świecie danych, gdzie cały czas obowiązuje Prawo Moora dla wielkości globalnych zasobów (dwukrotny wzrost co dwa lata) jest zasadniczy problem. Obawiam się nawet, że generatywna sztuczna inteligencja, może ten proces przyspieszyć. Pisałem o tym w tym miejscu [Gromadzenie danych trwa. Zettabajty, jottabajty danych – ile z nich wykorzystujemy?]. Dlatego sama ekstrakcja wymaga inteligentnej automatyzacji, która obniży jej czasochłonność.

Integracja danych z rozproszonych zbiorów

Kolejnym problemem jest silosowość i rozproszenie danych w organizacji. W idealnym świecie analizę dobrze byłoby oprzeć na integracji danych z kilku miejsc:

  • Data Lake zawierającego dane z zapisów urządzeń pomiarowych albo IOT,
  • danych wrażliwych przetwarzanych w rozwiązaniu on premises i …
  • arkusza kalkulacyjnego zachowanego na komputerze jednego z managerów.

Organizacje, w których spotkamy 500 zbiorów danych mogących służyć analityce nie są wyjątkami. Mamy do czynienia nie tyle z wyzwaniem jeziora danych, a wyzwaniem wielu ich kałuż.

Jeszcze innym problemem jest tempo ewolucji danych i stosowanych do ich przetwarzania technologii. A przecież do sensownego Machine Learning potrzebujemy danych w długich przekrojach czasowych, zatem takich, które były tworzone w przedpotopowych – z dzisiejszego punktu widzenia – technologiach.

Demokratyzacja danych, czyli włączenie do analizy ekspertów

I wreszcie, wynikająca z wcześniejszych zjawisk demokratyzacja danych (Czy dane mogą być demokratyczne? W czym może pomóc demokratyzacja danych?), a w szczególności konieczność włączenia w ich przetwarzanie osób mających dużą wiedzę dziedzinową, choć niekoniecznie informatyczną. Stąd rosnąca popularność Low-Code/ No-Code i jego systemów. O tym zresztą też pisałem w artykule: Co ma wspólnego No-code z Data Science?

Talend Data Fabric – narzędzie do przetwarzania i zarządzania danymi, które sprosta wielu wyzwaniom

Bardzo dobrą odpowiedzią na te wyzwania jest Talend Data Fabric. Jak w przypadku wielu nazw w IT metafora zawarta w nazwie nie do końca wyjaśni nam istotę rozwiązania. Określenie „tkanina danych” raczej oddala nas  od rozumienia tego rozwiązania, to podobnie jak wiedza, że „scrum” to młyn w rugby, utrudnia rozumienie czym jest  metoda projektowa kryjąca się pod nazwą Scrum Masteringu

Zatem po kolei. Talend Data Fabric to rozwiązanie, które potrafi bardzo efektywnie realizować procesy przetwarzania i zarządzania danymi. Nie tylko ETL, ale także dbanie o jakość danych, czy ich ochronę. Efektywność bierze się stąd, że jest to podejście całościowe i elastyczne. Całościowe, bo z punktu widzenia Bussines Analytics obejmuje wszystko, co jest niezbędne zanim przystąpimy do wyciągania wniosków z danych. Elastyczne, bo dostosowane do potrzeb i kompetencji różnych aktorów procesów zarządzania danymi w organizacji. Myślę, że bardziej trafną, choć nie tak poetycką nazwą, byłoby „taśmociąg danych”.

Jednak, żeby nie być gołosłownym.
  • Praca w natywnych środowiskach: Na początku każdego ETL mamy zróżnicowany zbiór zbiorów danych. Zróżnicowany z puntu widzenia sposobów przechowywania, strukturyzowania i udostępniania danych. Zbiory, które mogły powstawać w różnym czasie i różnych technologiach. W Talend Data Fabric nie chodzi jedynie o konektory, choć faktycznie zestaw jest imponujący. Ważniejsze jest, że każde zadanie wymagające pracy na zbiorach wejściowych i wyjściowych wykonuje w rodzimych (natywnych) środowiskach.
  • Sprawne i inteligentne przetwarzanie danych: Bardzo ważne jest to, że Talend nie trzyma, a przetwarza dane ze zbiorów on-premises i chmurowych do publikacji w docelowym zbiorze. Pracuje na metadanych, co niezwykle ułatwia i skraca czas zarówno pobierania, jak sprawdzania, przetwarzania i publikacji danych. „Widzi” także zmiany w danych w źródłowym zbiorze, zatem pobiera tylko nowe, co jest zasadnicze dla szybkości aktualizacji dużych zbiorów.
  • Ocena jakości danych i wsparcie czyszczenia danych: Efektywnie także ocenia jakość danych i automatyzuje proces ich czyszczenia. Identyfikuje też miejsca w procesie, gdzie niezbędna jest ingerencja człowieka.

Talend Data Fabric umożliwia łatwą pracę wielu uczestników procesu.

Wreszcie, co chyba najważniejsze dla organizacji data driven, jest dostosowany do potrzeb i kompetencji wszystkich uczestników procesów zarządzania i przetwarzania danych, od informatyka przetwarzającego dane w SQL, przez eksperta dziedzinowego oceniającego ich jakość do osoby odpowiedzialnej za ochronę danych i compliance. Procesy są definiowane w technikach no-code, za pomocą wygodnych, zrozumiałych, wizualnych paneli. Jednak, gdy na jakimś etapie pojawi się konieczność zaangażowania informatyka, to równie wygodnie umieści on potrzebny kod. Wszystko to w przejrzyście ułożonym procesie z jasno przydzielonymi zadaniami i uprawnieniami. Jak pisałem, w praktyce jest nie tyle tkaniną, co taśmociągiem dostosowanym do potrzeb każdej organizacji.

Nie jest celem tego tekstu przedstawienie wszystkich możliwości Talend Data Fabric, ponieważ miejsca za mało, a bez problemu taką wiedzę znajdziecie tutaj https://www.talend.com/products/data-fabric/

Chciałbym zachęcić Was jedynie do uważnego przyjrzenia się temu rozwiązaniu.

Przykładowe wyzwanie?

Na zakończenie proponuję eksperyment, hipotetyczne zadanie dotyczące analizy danych z obszaru ochrony zdrowia (najbardziej wrażliwych jakie możemy sobie wyobrazić). Konkretnie ETL zbiorów zawierających diagnostykę obrazową, np. rezonans magnetyczny, Dane (zdjęcia i opisy) są przechowywane w kałużach kilkunastu klinik, historycznie używających różnych systemów ich archiwizacji. Opisy, ponieważ są robione przez ludzi, zawierają istotną, choć nieznaną liczbę błędów. W sam proces ETL poza informatykami muszą być zaangażowani eksperci dziedzinowi (lekarze), którzy nie zawsze są biegli w technologiach informacyjno-komunikacyjnych. Dodatkowo całość musi być przeprowadzona w sposób  spełniający wymagane prawem standardy ochrony najbardziej wrażliwych danych osobowych. Na koniec natomiast potrzebujemy predykcji, która nie tyle będzie lekarzy zastępowała w decyzjach, a zwiększała efektywność ich pracy. Przyspieszała diagnostykę i umożliwiała bardziej trafne decyzje terapeutyczne. Dla mnie oczywistą odpowiedzią na tak postawione zadanie jest Talend + Qlik Sense.

Czy to game changer pozostawiam do oceny czytelnikowi. Ja jednak nie obawiam się użyć takiego określenia. Sprawdźcie, czy z Waszego punktu widzenia mam rację.

  1. Zapomniałbym o obietnicy. Odpowiedź na pytanie brzmi „21”. Na 21 sposobów była zapisywana nazwa „Warszawa” w bazie danych klientów polskiej firmy telekomunikacyjnej.