Gromadzenie danych trwa. Zettabajty, jottabajty danych – ile z nich wykorzystujemy?

Wolumen zgromadzonych na świecie danych powoli przestaje robić na nas wrażenie. 120 zettabajtów, które zbierzemy do końca tego roku są równie abstrakcyjne, jak 1 jottabajt, który powinniśmy osiągnąć za 10 lat. Łatwiej więc mówić o szansach, zagrożeniach i korzyściach tego, że dostępnych danych jest niewyobrażalnie dużo. Tych którzy chcieliby mieć bardziej konkretną wiedzę na temat charakterystyki tych zbiorów odsyłam do raportu The Digitization of the World From Edge to Core opracowanego przez IDF. Został on wprawdzie opracowany w 2018 roku, jednak jego wnioski są cały czas aktualne.

Zagrożenia wynikające z gromadzenia danych

Zacznę od wskazania zagrożeń, z których warto sobie zdawać sprawę. Szybki wzrost wolumenu danych rodzi dwa istotne zagrożenia, które tylko pozornie nie dotyczą biznesu:

  • Po pierwsze, są to koszty klimatyczne. Funkcjonowanie serwerów jest bardzo energochłonne ze względu na konieczność ich chłodzenia. Wprawdzie, ostatnio pojawiły się informacje o stworzeniu nadprzewodników działających w temperaturze pokojowej, jednak dopóki nie pojawią się one w praktycznych zastosowaniach, proponowałbym traktować je bardziej jako ciekawostkę, niż rozwiązanie problemu carbon footprint serwerów.
  • Po drugie, są to zagrożenia prywatności. Ochrona danych wrażliwych stanowi problem nie tylko dla biznesu. Kwestie te są tak istotne społecznie i politycznie, że coraz silniejsze są regulacje dotyczące przechowywania i wykorzystywania danych. Oczywiście ten problem nie dotyczy Chin (i innych reżimów autorytarnych), gdzie państwo opiera nadzór obywateli na analizach masowych danych w czasie rzeczywistym, ale tu mamy monopol państwa na wykorzystywanie danych.

To tematy na oddzielne wpisy, jednak warto mieć je z tyłu głowy, chociażby dlatego, że regulatorzy mogą z tych powodów nakładać ograniczenia i opłaty za gromadzenie i przetwarzanie danych.

Gromadzimy dane, które „do niczego nie służą”

Wróćmy jednak do problemu (nie)wykorzystania dostępnych danych. Wolumen danych rośnie w tempie wykładniczym – 1,5-krotnie co dwa lata. Łatwo tu zauważyć analogię do prawa Moora. To zresztą wskazuje, że nie moce obliczeniowe są największą barierą dla wykorzystania danych, którymi świat dysponuje. Moce obliczeniowe rosną szybciej i wcale nie poprawia to odsetka wykorzystywanych zasobów. Szacuje się, że tylko w biznesie nie wykorzystuje się ¾ posiadanych przez firmy danych. A są przecież jeszcze dane gromadzone w urządzeniach końcowych, czy dane w rejestrach publicznych lub dane z obserwacji naukowych.

Ograniczeniem nie wydają się także ceny rozwiązań IT służących do analizy danych. Dostęp nawet do tych najbardziej zaawansowanych można mieć w formule SaaS za kilkadziesiąt dolarów miesięcznie.

Oczywiście istotną barierą jest jakość danych i różnorodność platform oraz formatów ich gromadzenia. To zadanie dla dostawców rozwiązań, a nie ich użytkowników. Jednak sytuacja tu na pewno się poprawia. Przykładem jest przejęcie Talend przez Qlik, a przypomnijmy, że obie firmy od wielu lat są liderami rynku w swoich kategoriach. Qlik wśród platform Analizy Danych i Business Intelligence, a Talend integracji i zarządzania danym. Na takiej pozycji są systematycznie umieszczane w Gartner Magic Quadrant

Gromadzimy dane, które „do niczego nie służą”
Źródło: Talend.com, Gartner.

Bariery w efektywnym wykorzystaniu gromadzonych danych

Chciałbym jednak zwrócić uwagę na często niedostrzegane bariery. Czynniki mające wpływ na wykorzystania zasobów w dużej części mają charakter „miękki”, a najsłabszym ogniwem w tym obszarze okazuje się człowiek. Trzeba tu wskazać na kilka obszarów:

  • Kompetencje.
    Po pierwsze, chodzi o podnoszenie poziomu wiedzy i umiejętności menadżerów średniego szczebla (life long learning!), tak aby Business Intelligence stało się elementem ich kluczowych kompetencji.
  • Zmiana sposobu myślenia o danych w organizacji.
    Data Driven Company nie polega jedynie na stworzeniu działu Data Science, tylko na wprowadzeniu praktyki nowoczesnych analiz danych do codziennej działalności firmy. Demokratyzacja danych oznacza nie tylko to, że otwartych danych jest coraz więcej, ale także to, że coraz więcej osób potrafi wyciągać z danych wnioski.
  • Odejście od business as usual.
    Łatwiej zbudować kulturę i praktyki funkcjonowania firmy od zera niż zmienić utrwalone schematy postępowania, jednak w czasach szybkich zmian technologicznych trudno tego uniknąć. Przykładów firm wielkich i małych, które upadły z tego powodu jest wielu (pewnie najbardziej znanym jest Kodak).
  • Last but not least, edukacja powszechna.
    Temat zdecydowanie nie na ten blog, jednak każdy kto szukał pracowników z przyzwoitymi kompetencjami matematycznymi, wie o czy mówię. Matematyki bardzo trudno jest nauczyć osób dorosłych, a edukacja matematyczna w szkołach pozostawia bardzo wiele do życzenia. Wykres wyników ostatniego egzaminu 8-klasistów pokazuje skalę tego problemu.
Bariery w efektywnym wykorzystaniu gromadzonych danych
Źródło: CKE

Trudno przełamać prymat Excela i Power Pointa jako narzędzi do analizy i prezentacji danych

Trudno dzisiaj spotkać w jakimkolwiek biurze pracownika, który nie posługuje się arkuszem kalkulacyjnym czy programem do prezentacji (chociażby na podstawowym poziomie).
I właśnie tych narzędzi używa się dzisiaj do analiz danych i prezentowania ich wyników. To tak jakby w 1990 roku nadal korzystać z maszyny do pisania, aby przygotowywać raporty, a w 2000 używać amerykanki do księgowania. Dostępnych jest co najmniej kilka rozwiązań, za pomocą których zrobimy dużo bardziej precyzyjne analizy i predykcje, a ich wyniki zaprezentujemy bardziej komunikatywnie i perswazyjnie. Opanowanie korzystania z tych aplikacji na poziomie średniozaawansowanym nie jest dużo trudniejsze niż uzyskanie podobnych kompetencji korzystania z Excela i innych popularnych arkuszy kalkulacyjnych.

Dlaczego firmy nie wykorzystują zgromadzonych danych? Insighty rynkowe

Żeby nie było zbyt teoretycznie, trzy przykłady, jak wygląda praktyka w Polsce. Firmy, które opisuję istnieją naprawdę:

Duża firma z branży usług finansowych (kilka tysięcy zatrudnionych).

Dyrektor jednego z pionów przygotowuje dla zarządu cykliczne materiały zawierające analizy statystyczne. Nie są to predykcje, jednak to na ich podstawie podejmowane są istotne decyzje biznesowe. Materiały opracowuje za pomocą arkusza kalkulacyjnego, czasem też wkłada wykresy do nieśmiertelnego Power Pointa. Dlaczego? Bo „zawsze tak robił”. Nawet słyszał o bardziej nowoczesnych rozwiązaniach, ale raczej nie da się do nich przekonać. Ewentualnie może zwróci się do działu Data Science o przygotowanie mu jakiegoś rozwiązania IT. Chociaż bez entuzjazmu.

Nieduża firma badań opinii i rynku.

Od początku swojego istnienia zarówno analizy, jak i prezentacje badacze przygotowują wyłącznie za pomocą pakietu MS Office. Wprawdzie firma zaczęła sięgać po jedną z aplikacji stosowaną w analizach danych, jednak wyłącznie do prezentowania wyników i tylko w formule outsourcingu (zamawiają dashboardy oparte na arkuszach kalkulacyjnych). Pytani, dlaczego nie chcą tego zmienić, mówią, że klienci „oczekują od nich takiego standardu prezentacji wyników, ponieważ chcą mieć je w formie łatwej do przekopiowania do swoich prezentacji”. Zdecydowanie natomiast „nie mają czasu uczyć się czegoś nowego”. W ten sposób o firmie, która z natury swojej działalności zajmuje się analityką danych trudno byłoby powiedzieć, że jest data driven. Nie mówiąc o sięganiu po socjologię cyfrową, która zajmuje się wnioskowaniem na podstawie masowych zbiorów danych. O samej socjologii cyfrowej i analizach danych publicznych napiszę w kolejnym wpisie.

Średniej wielkości firma, przedstawiciel i dystrybutor kilku marek (handel hurtowy, a ostatnio także BTC).

W działalności oczywiście wykorzystuje specjalistycznie oprogramowanie CRM do zarządzania stanem magazynów oraz łańcuchami dostaw. Jednak analizy i zestawienia pomagające w prognostyce biznesowej są robione za pomocą arkusza kalkulacyjnego. Z oczywistych powodów firma potrzebuje predykcji dotyczących zakupów i sprzedaży, zwłaszcza, że łańcuchy dostaw są długie. Oczywiście słyszeli o rozwiązaniach służących do analiz danych i predykcji na ich podstawie, jednak na wdrożenie takich narzędzi brakuje czasu. W konsekwencji decyzje biznesowe podejmowane są bardziej na podstawie arkusza kalkulacyjnego i gut feeling, niż w oparciu o analizy i predykcje wykorzystujące dostępne dane.

Takich przykładów niewykorzystanych szans można znaleźć dużo. Wiele firm ma jeszcze długą drogę od etapu, gdy zaczną korzystać z Machine Learning. Jednak już sama zmiana praktyki mikroanaliz zarówno danych statystycznych, jak i rejestrów zdarzeń, bardzo przybliżyłaby je do takiego momentu. Szczególnie jeśli zdecydowaliby się na Qlik Sense, a to ze względu na AutoML ułatwiający robienie zaawansowanych analiz bez konieczności kończenia studiów Data Science.

Nie wiem, czy firmy te podzielą los dinozaurów, ale prawdopodobieństwo, że tak się stanie nie jest zerowe.  Zdaję sobie sprawę, że zmiana wymaga wysiłku, ale jeżeli myślimy w perspektywie dłuższej niż jednoroczny wynik, warto go podjąć. Przeprowadzenie tej zmiany w obszarze Data Science jest drogą do tego, aby rozwiązać problem gromadzonych danych, które „nie służą do niczego”.

Wykorzystanie Sztucznej Inteligencji w modelach predykcyjnych

Trudno dzisiaj otworzyć lodówkę, żeby nie natknąć się na informacje dotyczące Sztucznej Inteligencji. GTP4, BING, BARD i dziesiątki inni rozwiązań zawładnęły naszą wyobraźnią. Warto zatem postawić sobie pytanie: co AI ma wspólnego z rozwiązaniami wykorzystującymi Deep Learning i służącymi do analizy danych, czyli także z Qlik Sense? I oczywiście czy AI stanowi dla nich zagrożenie?

Chat GTP a sztuczna inteligencja

Szersza publiczność coraz lepiej rozumie, czym jest i czym nie jest Chat GTP i jakie może mieć zastosowania. Na ile jest „inteligentny” i dla kogo może być zagrożeniem. Powiem w skrócie, bo jednak nie jest to blog na temat Sztucznej Inteligencji – utożsamianie GTP z AI jest lekkim nadużyciem. Z sześciu głównych obszarów wchodzących w skład AI zdefiniowanych w 1956 roku na konferencji w Dartmouth, czyli komputerów, przetwarzania języka naturalnego (NLP), sieci neuronowych, teorii obliczeń, myślenia abstrakcyjnego i kreatywności jest on przełomowy w trzech: NLP, sieciach neuronowych i teorii obliczeń.

Chat GTP to jednak przełom na miarę rewolucji przemysłowej – co takiego potrafi?

Przełom, którego jesteśmy świadkami jednak na pewno przełoży się na gospodarkę i życie społeczne, podobnie jak miało to miejsce w konsekwencji rewolucji przemysłowych. Upraszczając, trzy rewolucje przemysłowe zminimalizowały popyt na proste prace wykonywane siłą mięśni jak np. takie jak praca tragarza, choć nie wyeliminowały ich całkowicie, o czym można się przekonać wybierając sią na trekking do Tybetu lub na wycieczkę do Wenecji.

Przegląd narzędzi wykorzystujących Generatywną AI
Przegląd narzędzi wykorzystujących Generatywną AI, źródło: rapidops

Narzędzia wykorzystujące Generatywną AI, takie jak GTP, znacząco zmniejszają popyt na proste prace wykonywane siłą rozumu. Dzieje się tak dlatego, że dostępne obecnie rozwiązania, oparte o duże modele językowe (LLM), Deep Learning i sieci neuronowe są bardzo sprawne w komunikacji w języku naturalnym. W efekcie GTP zarówno przyjmuje złożone polecenia w języku naturalnym, jak i udziela rozbudowanych odpowiedzi. Wprawdzie każdy, kto choć raz użył Chata GTP wie, że ‘mądrzejszy’ od niej człowiek jest cały czas potrzebny (GTP potrafi np. napisać „Drogi Mamo!” w życzeniach z okazji Dnia Matki do zamieszczenia na komercyjnym profilu na Instagramie). Jednak generowanie tekstów, obrazów, kodu, video czy modeli 3D jest dzisiaj dużo prostsze i szybsze, a zatem tańsze. De facto, mówimy o nowej generacji rozwiązań Low Code / No Dode, o których pisałem poprzednio. [https://businessintelligence.pl/co-ma-wspolnego-no-code-z-data-science/]

Predykcje z pomocą AI – nie zawsze można na nich w pełni polegać

Generatywna AI nie wymaga udziału człowieka w znajdowaniu prawidłowości w masowych zbiorach danych. Jednak ten brak udziału człowieka jest dość iluzoryczny. Nie rekomendowałbym wykorzystywania aplikacji opartych na AI w obecnym kształcie do analityki predykcyjnej w biznesie. Ryzyko błędnego zrozumienia zadania i niepoprawnej odpowiedzi jest dzisiaj zbyt duże. I jeżeli, pisząc post reklamowy, możemy sobie na to pozwolić, to w przypadku predykcji biznesowej – niespecjalnie.

Modele predykcyjne w Qlik Sense AutoML

A co to wszystko ma wspólnego z Qlik Sense? Po pierwsze, Chat GTP jest  już z Qlik Cloud zintegrowany, zatem możliwe jest wydawanie mu poleceń w języku naturalnym. Zainteresowanych odsyłam tutaj:

Predykcja i preskrypcja – tego właśnie potrzebujemy, aby wyciągać prawidłowe biznesowe wnioski

Jednak dużo ważniejsze w tym obszarze jest rozwiązanie, nad którym Qlik Sense pracował od kilku lat, czyli AutoML. Jak wskazuje nazwa jest to automatyzacja tworzenia i stosowania modeli prognostycznych oraz predykcyjnych. Dla biznesu zasadnicza jest wiedza, nie tylko o tym, dlaczego coś w przeszłości poszło nie tak i jakie czynniki wpływają na przyszłe zachowanie klientów (predykcja), ale także, co konkretnie powinniśmy zrobić, aby zwiększyć prawdopodobieństwo korzystnych scenariuszy (preskrypcja).

Ułatwienie tworzenia modeli prognostycznych

Dotychczas preskrypcja była domeną zatrudnionych w firmach naukowców danych. Natomiast AutoML pozwala na opracowanie trafnych predykcji osobom, które naukowcami danych nie są, ale za to dobrze rozumieją biznes, w którym działają.

Jak działa Qlik Sense AutoML?

Auto ML na podstawie przeprowadzonego samodzielnie eksperymentu powie nam, które z algorytmów stosowanych w ML są optymalne dla naszego zbioru danych historycznych. Decyzję o tym, który z nich wykorzystać w predykcji podejmiemy sami. Jednak AutoML powie nam, jakie kryteria brał pod uwagę w swojej rekomendacji (np. w jakim stopniu konkretny model zależy od poszczególnych zmiennych).

Po pierwszym eksperymencie AutoML sam zasugeruje, jak ograniczyć liczbę zmiennych i w kolejnym eksperymencie sprawdzi, czy inne algorytmy nie są bardziej adekwatne. Tak stworzony algorytm zastosujemy do danych aktualnych, a jego wyniki (preskrypcje Auto ML) przedstawi nam za pomocą przejrzyście zrobionych dashboardów.

Żadnego programowania, pogłębionej wiedzy z zakresu nauki o danych i stosowanych w niej algorytmach oraz statystyki. Nie potrzebujemy nawet wkładać wysiłku w projektowanie dashboardów.  Zasadnicze jest to, abyśmy byli w stanie, na podstawie wiedzy o naszym biznesie, skorygować propozycje przedstawiane przez Auto ML, a następnie zastosować preskrypcje w praktyce. Maszyna nie zastąpi nas w zdefiniowaniu problemu, jednak w znalezieniu jego rozwiązania bardzo pomoże.

Co z tego wynika dla predykcji wykorzystujących ML?

AutoML nie jest generatywną Sztuczną Inteligencją, jednak ma z nią sporo wspólnego, jak chociażby Deep Learning wykorzystujący duże zbiory danych. Istotna różnica polega nie tylko na rozmiarach baz danych, na których trenowane są modele. Z punktu widzenia użytkownika biznesowego AutoML jest z rozwiązaniem, które wprawdzie wymaga większego zaangażowania człowieka (nadzoru), ale jego predykcje i preskrypcje są trafniejsze niż te, przygotowane przez nienadzorowaną generatywną AI. Jednak bariera kompetencyjna w korzystaniu z AutoML Qlik Sense jest dużo niższa niż była przed jego wprowadzeniem.

Do bardzo wielu mniej skomplikowanych preskrypcji nie będziemy już potrzebowali naukowców danych, lecz analityków sprawnie posługujących się Qlik Sense. Więcej w tej kwestii można dowiedzieć się w tym miejscu.

Na pewno warto przyjrzeć się AutoML dokładniej, w oparciu o rzeczywiste, a nie tylko treningowe zbiory danych. W nieodległej przyszłości postaram się takie studium przypadku przedstawić.

Co ma wspólnego No-code z Data Science?

Trochę w cieniu dzisiejszego szumu wokół sztucznej inteligencji rozwija się rynek rozwiązań low-code i no-code (LCNC), czyli mówiąc po polsku, programowania przez nie-programistów.

Dlaczego? Są ku temu co najmniej trzy dobre powody. Po pierwsze, praca programistów staje się coraz trudniej dostępna, a zatem droższa. Kształcenie nie nadąża za popytem, ponieważ nabycie potrzebnych kompetencji wymaga nie tylko kilkumiesięcznego kursu Pythona, C++, Rubby czy JavaScript, lecz dobrego systemu edukacji od poziomu szkoły podstawowej do matury. Po drugie, biznes musi sprawnie reagować na szybko zmieniające się potrzeby, a rozwiązania IT muszą być coraz bardziej elastyczne i dotychczasowy model tworzenia rozwiązań informatycznych jest zbyt wolny. Po trzecie wreszcie, „teraz już można”. Używając najprostszego przykładu – nie od dzisiaj tworzenie strony www z pomocą programisty jest marnotrawstwem pieniędzy. Aplikacji do ich tworzenia, bez potrzeby napisania linijki kodu, znajdziemy dziesiątki. Dużo ważniejsze niż umiejętności programistyczne stały się kompetencje z obszaru UX, SEO i projektowania graficznego.

Low code, no code – potężny i dynamicznie rosnący nurt w IT

Obecnie w modelu LCNC tworzy się aplikacje mobilne, rozwiązania CRM, e-commerce, Machine Learning (ML), Internet of Things (IoT). W tradycyjnym modelu tworzenia produktów IT niezbędne jest porozumienie się pomiędzy właścicielem procesu w organizacji, który z rozwiązania będzie korzystał, a developerem, który je tworzy. To nie zawsze jest proste, zabiera czas i kosztuje, LCNC likwiduje ten problem.

Citizen Developers rosną w siłę

Programowanie przez nie-programistów staje się powszechne w biznesie (bardziej na świecie niż w Polsce). Tacy nie-programiści mają już swoją nazwę: Citizen Developers. Różne ośrodki analityczne szacują globalną wartość rozwiązań LCNC na koniec 2028 roku na blisko 100 mld USD, a CAGR na tym rynku na ok. 30%.

Citizen Developers
źródło: www.databridgemarketresearch.com

Citizens Data Developers? Czy Big Data także ulega temu uproszczeniu?

Dlaczego piszę o tym na blogu dotyczącym biznesowej analityki danych i korzystania z Qlik Sense? Ponieważ podobne podejście jest potrzebne w Data Science i analityce biznesowej. Podobne są powody, dla których takie łączenie roli konsumenta i producenta jest uzasadnione.

Na marginesie można zauważyć, że sięgając do zamierzchłej historii LCNC spotkamy tam arkusze kalkulacyjne z przełomu XX i XXI wieku, które umożliwiały analizę danych bez znajomości języków programowania.

Nowoczesne narzędzia do analizy danych łączą już w sobie wiele kompetencji

Te same arkusze tkwią u źródeł wszystkich dzisiejszych narzędzi przeznaczonych do analizy danych. W każdym wymiarze potrzebnym w dzisiejszej analityce danych – od czyszczenia i integracji danych, przez ich analizę, predykcje i ML do wizualizacji –aplikacje, z których korzystamy dzisiaj są wielokrotnie bardziej efektywne niż ich pradziadkowie. Jednak założenie, że kompetencje programistyczne nie są niezbędne do korzystania z narzędzi analitycznych pozostało niezmienne.

Qlik Sense i jego nowe, funkcjonalne odsłony

Qlik Sense jako lider rynku ma w tej sprawie bardzo dużo do powiedzenia, a żeby tak było, dokonał w ostatnich latach poważnych inwestycji w rozwój produktu. Używając go możemy podłączać dane bez tworzenia własnych API, a integrować je bez posługiwania się SQL. Nie ma też potrzeby stania się specjalistą Machine Learning do opracowania trafnej predykcji i kończenia studiów artystycznych, aby przygotować komunikatywną wizualizację danych statystycznych. Dzisiaj bardzo zaawansowane analizy i predykcje oparte o ML mogą przygotować nie tylko osoby, które ukończyły studia z obszaru Data Science, ale także nieprofesjonaliści, za to znający dobrze swój biznes.

Co jeszcze umożliwia Qlik Sense SaaS AutoML?

Gdy chcemy przygotować predykcję dotyczącą zachowań naszych klientów na podstawie masowego zbioru danych historycznych, nie musimy wiedzieć na czym polegają i czym różnią się algorytm Random Forest i regresji Lasso (ja na przykład nie wiem).  Qlik Sense SaaS AutoML zaproponuje nam nie tylko optymalny model. Możemy też łatwo zobaczyć zmienne, na których Auto ML opiera swoją predykcję i jeżeli jednak uważamy, że jakieś z nich w tej analizie nie mają sensu, to łatwo wyłączymy ich wpływ.

Qlik Sense SaaS AutoML
Proces przygotowania predykcji za pomocą AutoML (źródło: qlik.com)

Żadnego kodowania w Pythonie, żadnych studiów Data Science, żadnej algebry liniowej. Dla osób mających doświadczenie z Qlik Sense powinno wystarczyć obejrzenie 30 minutowego filmu edukacyjnego. Trudno znaleźć lepszy przykład podejścia Low Code – No Code w analizie biznesowej.

Z Qlik Application Automation zintegrujesz dane z wielu popularnych aplikacji

Warto także zwrócić uwagę na funkcjonalność umożliwiającą użytkownikom automatyzację aplikacji (Qlik Application Automation) i dynamiczne łączenie Qlik Sense z zewnętrznymi aplikacjami SaaS. Mówiąc bardziej po polsku – jeżeli chcemy, żeby pod określonym warunkiem Qlik Sense wywołał działanie innej aplikacji, z której korzystamy (wysłał informację, zaktualizował treść strony www), możemy to w prosty sposób osiągnąć. Nie mając żadnej wiedzy na temat tego, co to jest API i nie pisząc ani jednej linijki kodu, zrobimy to za pomocą wizualnego interfejsu użytkownika – korzystając z dostępnych szablonów. Takie konektory może zbudować dla 31 aplikacji SaaS, takich jak DropBox, MS Teams, Slack, Mailchimp, Slesforce, MS Excell, Google Sheets, czy HubSpot.

Kiedy korzystać z uproszczeń, a kiedy postawić na w pełni profesjonalne rozwiązania?

Dzisiaj, gdy w firmie trzeba przygotować aplikację służącą do analityki biznesowej, robią to developerzy i analitycy specjalizujący się przede wszystkim w takich zadaniach. Czy warto to zmieniać? Jak w większości zastosowań LCNC, to zależy. Gdy tworzymy rozwiązanie, które ma być używanie w horyzoncie wieloletnim i stanowi element zarządzania kluczowymi procesami firmy, to raczej nie. Jednak przy robieniu prostszych analiz ad hoc albo wąskiego zastosowania, nie ma takiej potrzeby. Co więcej, do przygotowania trafnej predykcji zdarzeń biznesowych coraz częściej zamiast algebry liniowej i statystyki potrzebujemy znajomości własnego biznesu.

Wracając do znaczenia „obywatelskich deweloperów” w firmie, szybki rozwój rozwiązań AI powoduje gwałtowne zmniejszenie bariery kompetencyjnej przy korzystaniu z narzędzi cyfrowych. Coraz częściej ważniejsze jest wiedzieć, co chcemy osiągnąć, a niekoniecznie jak to zrobić, bo w tym drugim pomoże nam maszyna.  Citizens Data Science wywodzi się wprost z Citizens Science, czyli uprawiania nauki we współpracy naukowców z nie-naukowcami.
W ten sposób był realizowany np. projekt poszukiwania obcych cywilizacji SETI@Home i dziesiątki innych. Są to znaczące badania naukowe, w których zwykli obywatele stają się badaczami w ramach przedsięwzięcia zaprojektowanego przez akademików. I tak samo warto patrzeć na „obywatelskich analityków danych” w firmach – jak na osoby, które nie tylko korzystają, ale też współtworzą wiedzę opartą na danych.

Praktycy w procesie: interesariusze danych zaangażowani w tworzenie analiz

Podobnie jak przy tworzeniu innych rozwiązań IT, barierą dla rozwoju Data Science są zasoby ludzkie. Możemy je zwiększać włączając w proces tworzenia analiz osoby, które potem z tych analiz korzystają. Przecież każdy manager na „swoje” potrzeby przygotowuje analizy danych i monitoruje KPI, a możliwość zrobienia tego dokładniej i szybciej powinna być dla niego atrakcyjna. W teorii brzmi to pięknie, w praktyce przeważnie jednak przegrywa z business as usual. Wystarczy sprawdzić, ilu jest w naszej organizacji managerów różnego szczebla, którzy do analizy, raportowania i prezentacji danych używają modelu xlc+ppt, bo „zawsze tak robili”.

Zarządzanie zmianą jest tematem zdecydowanie przekraczającym tematykę tego materiału, zatem nie będę udzielał rad, jak z tym business as usual walczyć. Zaryzykuję jednak tezę, że w każdej organizacji są osoby, które z podobnych jak w nauce obywatelskiej powodów (ciekawości, niezrealizowanych ambicji, chęci rozwoju), są w stanie zaangażować się w Citizens Data Science. Szczególnie jeżeli zobaczą, że nie jest to wiedza tajemna, a korzyści z niej płynące w pracy są duże.

Dla osób zajmujących się w firmach analizą danych korzyść będzie dokładnie taka sama, jak w przypadku projektu SETI dla naukowców. Z danych, którymi dysponują można i należy wyciągać wartościowe wnioski, a najszybciej zrobimy to korzystając z podejścia Citizens Data Science.

Czy dane mogą być demokratyczne? W czym może pomóc demokratyzacja danych?

Data is the Power. Można nawet zaryzykować tezę, że dostęp do danych i umiejętność wyciągania z nich trafnych wniosków decyduje dzisiaj o pozycji ekonomicznej i społecznej człowieka. Na szczęście nie jest to blog dotyczący zmian społecznych, więc pozwolę sobie tej kwestii nie rozwijać.

Informacja jako narzędzie wpływu

Fundamentalne znaczenie informacji nie jest żadnym nowym odkryciem. Można chociażby sięgnąć do historii Europy w XVII wieku. Gdy zorientowano się, że informacje mają znaczenie dla szerszej publiczności, powstały gazety. Wprawdzie dostęp do nich był ograniczony jedynie do tych, którzy potrafili czytać i dopiero 300 lat później, gdy edukacja stała się powszechna, wolne media stały się źródłem dostępnym dla większości, a informacja została zdemokratyzowana.

W podobnym miejscu jesteśmy dzisiaj. Rewolucja cyfrowa spowodowała nie tylko wykładniczy wzrost wolumenu dostępnych danych, szacowanego dzisiaj na 64 ZetaBajty (64*10^21). Przewagi wynikające z posiadania danych i ich przetwarzania mają nieporównywalnie większe znaczenie, niż miały informacje z kilkunastu państw europejskich dla kupców z Wolfenbüttel (gdzie powstała pierwsza w historii gazeta).

Informacja jako narzędzie wpływu
Wielkość i struktura danych zgromadzonych w systemach teleinformatycznych Źródło: Raconteur (za rivery.io/blog)

Dostępność wielkich wolumenów danych spowodowała rosnącą przewagę konkurencyjną tych, którzy je posiadają i potrafią wyciągać z nich wnioski. Qlik Sense jest dla takich zadań trudnym do przecenienia narzędziem, przede wszystkim ze względu na swoją efektywność w przetwarzaniu dużych zbiorów oraz rozbudowane funkcjonalności Machine Learning.

Demokratyzacja danych – co to takiego?

Demokratyzacja danych dotyczy zwiększania dostępności danych i ułatwień w korzystaniu z nich przez szersze grono Użytkowników, a nie tylko decydentów i osoby zarządzające. Skoro jednak data is the power, to dlaczego biznes miałby chcieć udostępniać to, co decyduje o jego przewadze nad konkurencją? Dzisiejsza gospodarka ma niewiele wspólnego z XIX wiecznym kapitalizmem i to wiedza jest obecnie najważniejszym kapitałem. Wprawdzie Polska bardziej ma ambicje, aby jej gospodarka była oparta na wiedzy, niż cel ten realizuje. Jednak i u nas rośnie liczba innowacyjnych firm, a w sektorze prywatnym szybko wzrasta poziom inwestycji w R&D, czego można dowiedzieć z European Innovation Scoreboard. W takiej gospodarce pracownik nie jest „siłą wytwórczą”, lecz współtwórcą wartości firmy. To, w jaki sposób jest wykształcony, poinformowany i do jakiej wiedzy ma dostęp, przesądza o jego efektywności.

Dane i zarządzanie nimi to (na razie) domena osób na najwyższych szczeblach

Jednak w wielu przypadkach w firmach dostęp do analityki danych, przedstawianej w wygodny dla użytkownika sposób, jest ograniczony do zarządów i rad nadzorczych. Oczywiście znajduje to uzasadnienie w tym, że w tych miejscach zapadają najważniejsze dla firmy decyzje, a czas na ich podjęcie jest dobrem rzadkim.  Upraszczając – dobrze wykonany dashboard daje dokładniejszy i wygodniejszy w korzystaniu wgląd w sytuację firmy, niż odczytywanie danych z arkusza kalkulacyjnego.

Demokratyzacja danych przyda się w biznesie

Decyzje wymagające wiarygodnego i szybkiego dostępu do danych nie są wyłączną domeną top managementu. KPI, będące wyznacznikiem kondycji firmy, są generowane na podstawie danych czerpanych z zasobów przedsiębiorstwa (często połączonych z danymi zewnętrznymi). Zatem manager, który może decydować celniej, łatwiej, wygodniej i szybciej, niż za pomocą arkusza kalkulacyjnego w oczywisty sposób będzie bardziej efektywny. A jeżeli dodatkowo mógłby to robić na danych generowanych w czasie rzeczywistym, to dużo szybciej identyfikowałby sytuacje wymagające jego interwencji.

Właściwie w odniesieniu do wszystkich pracowników można byłoby znaleźć dobry biznesowy powód udostępnienia im wybranych danych posiadanych przez firmę (widziałem ostatnio przykład z dużej firmy, w której w ten sposób pracownicy otrzymywali informację, z czego wynika ich premia). Jestem w stanie pokazać sytuacje, gdy korzystne dla firmy byłoby udostępnianie zakresu danych partnerom, podwykonawcom a nawet klientom.

Demokratyzacja danych w biznesie
Dashboard dotyczący customer experience KPI (qlik.com).

Ochrona danych osobowych jako bariera w demokratyzacji danych

Przeważnie przeszkodą dla tego typu wykorzystania danych, które i tak są zbierane i analizowane przez firmę, jest obawa o ich ochronę (zarówno z powodu ich wartości rynkowej, jak i RODO). Tu jednak mam dobrą informację dla użytkowników Qlik Sense. Ma on rozbudowane i bardzo skuteczne rozwiązania dotyczące określania dostępu i ochrony danych.

Dostęp do danych wymaga kompetencji w ich obróbce

Drugą barierą są kompetencje niezbędne do przygotowania rzetelnych i wygodnych w korzystaniu analiz. Trzeba mieć wiedzę i umiejętności, których nabycie wymaga czasu, aby profesjonalnie przygotować trafną predykcję wykorzystującą Machine Learning. Wcześniej grupa ta ograniczała się do osób posiadających bardzo wysokie kompetencje analityczne, statystyczne i informatyczne. Dzisiaj istnieją jednak rozwiązania, które ułatwiają przygotowanie zaawansowanych i wartościowych analiz danych. Aplikacje takie jak Qlik Sense automatyzują wiele zadań związanych z ich przygotowaniem – od łączenia zbiorów danych, przez korzystanie z modeli Machine Learning, po wizualizację, a do ich używania nie potrzeba kilku lat studiów, lecz kilkumiesięcznego szkolenia. I znowu, trzeba zwrócić uwagę, że Qlik Sense ma dobre i rozbudowane funkcjonalności dotyczące ułatwień w korzystaniu z ML.

Ten rodzaj demokratyzacji danych nie jest jedyny, o którym warto wspomnieć. Szczególnie należy tu powiedzieć o otwieraniu danych publicznych. Projekt Open Data jest jednym z priorytetów UE i nawet niechęć urzędników do dzielenia się wiedzą oraz informacjami musi przed polityką unijną ustąpić.

Czy ma to znaczenie dla biznesu? Jak najbardziej. Po pierwsze, wiele z danych będących w dyspozycji administracji ma dużą wartość dla podejmowania decyzji w biznesie (szczególnie w połączeniu z danymi posiadanymi przez firmy). Możemy tu wskazać liczne przykłady takich zasobów. Już teraz bezpłatnie dostępny jest szeroki zakres zabiorów GIS, w tym pomiary automatyczne aż do statystyk o niskim poziomie agregacji.

Warto o tym wspomnieć także dlatego, że analizy danych statystycznych o niskim poziomie agregacji mogą pomóc w kształtowaniu evidence based polityk publicznych. Jest to jak na razie możliwość teoretyczna, ale nie dlatego, że takie zbiory nie istnieją, tylko ze względu na postawę decydentów. Gdyby było inaczej mogliby oni uniknąć blamażu i bałaganu związanego z „Nowym Ładem”. A przecież za bałagan ten zapłacił także biznes.

Wiem, że zabrzmi to jak „Bajki z mchu i paproci”, ale jest to kierunek, w którym idzie świat i prędzej czy później, do niego dołączymy. Zresztą prace na takimi rozwiązaniami są zaawansowane (Zintegrowana Platforma Analityczna). Teoretycznie dostępne mogłyby być zbiory danych zawierające indywidualne rekordy z baz ZUS, NFZ czy podatkowe. Z oczywistych powodów kluczowym problemem do rozwiązania jest tu kwestia ochrony danych osobowych. To jednak sprawa warta oddzielnego wpisu na blogu, ponieważ z punktu widzenia statystycznego nie jest ona banalna. Chociażby dlatego, że trzeba byłoby powiedzieć na czym polegają wielowymiarowe kostki statystyczne. Jeżeli jednak ktoś chciałby zobaczyć, jak może to wyglądać, to proponuję zajrzeć na Swedish National Data Service.

Ze wszystkich tych powodów rozwiązania informatyczne, które są efektywne w przetwarzaniu i analizie danych oraz przejrzystym ich komunikowaniu, są trudne do przecenienia w procesie demokratyzacji danych. Zarówno w biznesie, akademii, administracji, jak i dla obywateli. Nie muszę chyba dodawać, że Qlik Sense jest tu jednym z liderów.