Błędy w wizualizacji danych: Czego jeszcze może być za dużo?

W poprzednim wpisie obiecywałem, że napiszę więcej o przykładach niepoprawnych wizualizacji danych. Możesz o tym poczytać w artykule Kiedy mniej znaczy więcej, czyli o błędach wizualizacji danych.

Wyzwaniem w tym temacie jest nie tyle znalezienie przykładów, co ich selekcja. W sieci możemy znaleźć kilkanaście blogów robiących zestawienia najgorszych infografik i wizualizacji danych statystycznych. Wybrałem z nich kilka kolejnych, kierując się tym, na ile pokazują one różne typy wizualizacji niepoprawnych.

Za dużo elementów

Przeładowanie może dotyczyć także elementów na wykresie (np. liczby linii na wykresie) oraz liczby ikon lub zdjęć. Tak, jak w przypadku kolorów – dodawajmy je jedynie, gdy uważamy to za niezbędne do przekazania informacji. Poniżej dwa z wielu przykładów, co się dzieje, gdy o tym nie pamiętamy:

Błędy w wizualizacji danych - Za dużo elementów
Źródło: Venngage.com
Za dużo elementów - błędy w wizualizacji
Źródło: www.princeton.edu

Problem ten pojawia się także często w przypadku tworzenia dashboardów. Mamy skłonność do wykorzystania każdego kawałka miejsca wizualizacji. Co gorsza, uważamy, że niezapełniona powierzchnia jest błędem (graficy nawyzywają to „lękiem przed pustką”). Przykład tego, że tak nie jest możemy zobaczyć na poniższej infografice American Cancer Society. Pokazuje ona różnicę pomiędzy przeciętnym rozmiarem wykrytego guza piersi w latach 80-tych, gdy z badań mammograficznych korzystało 13% kobiet i w latach 90-tych, gdy badało się 60% kobiet. Pusta przestrzeń i jeden kolor podkreślają informację i wzmacniają jej funkcję perswazyjną.

Za dużo elementów - najczęstsze błędy podczas tworzenia wizualizacji danych
Źródło: „Information Graphics” (Taschen, 2012)

W przypadku dashboardów sytuacja jest trochę inna. Często zadanie polega na tym, żeby wnioski, indeksy czy predykcje mieściły się na jednym ekranie. Jednak, gdy będzie ich za dużo, odbiorca może się pogubić, tak, jak większość osób zgubiłaby się za kokpitem samolotu. Lepiej już opracować kilka zintegrowanych dashboardów, z przejrzystą nawigacją przełączania się między nimi lub zastanowić się, które z przedstawionych informacji nie są niezbędne dla odbiorcy.

Za dużo grafika

Wcześniejsze przykłady pokazują zagrożenia wynikające z braku kompetencji graficznych. Jednak zdarzają się też sytuacje odwrotne, w których należy powiedzieć, że przy przygotowaniu wizualizacji danych było „za dużo” ingerencji grafika!. Przygotowując infografiki musimy połączyć kompetencje analityczne i graficzne. Jednak, jak wskazuje sama nazwa „infografika”, jej podstawową funkcją jest informowanie, a grafika ma tu znaczenie użytkowe, nie artystyczne.

W pułapkę skoncentrowania się na warstwie wizualnej wpaść może zarówno grafik, który skupia się głównie na tym, żeby zrobić projekt wizualnie atrakcyjny, jak i nie-grafik, który chce ładnie zwizualizować dane. Trudno mi powiedzieć, która z sytuacja zaszła przy tworzeniu poniższej infografiki, natomiast efekt jest bardziej niż komiczny.

Za dużo grafiki podczas wizualizacji danych
Źródło: USA TODAY (za Visme.co)

Stojące na głowie słońce i termometr mówią nam, że pewnie chodzi o upały. Ale z części wizualnej odniesiemy wrażenie, że temperatury wzrosną do prawie do 120 stopni (Farenheita, bo to materiał z amerykańskiej gazety). Jednak z tekstu dowiemy się, że „temperatury mogą wzrosnąć do ponad 90, a nawet przekroczyć 100 stopni”. I że heat indeks zależy nie tylko od temperatury, ale także od wilgotności. Z grafiki dowiemy się także, że autorzy szczególnie apelują o zadbanie o zwierzęta domowe. Trochę dużo nieścisłości, jak na jeden rysunek.

Żeby nie być niesprawiedliwym pokażę też przykład, który jest nie tylko wysokiej artystycznej próby, ale również bardzo dobrze spełnia funkcję informacyjną.

Za dużo grafiki podczas wizualizacji danych
Źródło: Kamel Makhloufi „Information Grapnics” (Taschen, 2012)

Mamy tu dwie banalnie proste wizualizacje tych samych danych. Obie dotyczą liczby ofiar wojny w Iraku w ciągu pierwszych 6 lat jej trwania. Punkt reprezentuj jedną ofiarę, prawa część pokazuje ofiary na osi czasu. Kolory odznaczają typ ofiar: niebieski – żołnierzy USA, zielony: żołnierzy sojuszników, pomarańczowy – cywili, a ciemnoszary – żołnierzy przeciwnika. Informacja, dzięki prostej formie, jest bardzo przejrzysta. Jednocześnie mogłaby ona spokojnie zawisnąć w galerii i pewnie dlatego znalazła się w albumie Taschena „information Graphic”.

Infografika ta pokazuje też, jak możemy łatwo sobie poradzić z przedstawieniem większej liczby danych, które zawierają informacje o czasie wystąpienia zdarzenia. Wielokolorowa siatka jest łatwa do wygenerowania w każdym programie służącym do wizualizacji danych. Co więcej, w przypadku zmiennej ciągłej bardzo dobrze sprawdza się „mapa ciepła”, gdzie wartości w punktach czasu są reprezentowane kolorem według skali temperaturowej.

Za dużo kreatywności

Zdarzają się takie wizualizacje danych, którym pomysłowość autora odbiera sens.

Do przedstawienia procentowego rozbicia trzech zmiennych możemy wykorzystać ponad dziesięć typów wykresów. Autor infografiki poniżej wybrał jednak taki, w którym trudno doszukać się sensu. Faktycznie wykres obwarzankowy jest wizualnie atrakcyjny i stwarza możliwość podkreślenia jednej informacji wykorzystując wolną przestrzeń w środku obwarzanka (z tego zresztą powodu Qlik Sense zawiera szablon tego typu wizualizacji danych).

Jednak konia z rzędem temu, kto powie, dlaczego autor próbował zmieścić odpowiedzi na trzy pytania na jednym wykresie kołowym? Wykorzystanie trzech obwarzanków byłoby równie eleganckie wizualnie, stwarzałoby możliwość wykorzystania ikon i co najważniejsze – miałoby sens.

Za dużo kreatywności w wizualizacji danych
Źródło: Visme.co

Czasami jednak czegoś jest za mało…

I na zakończenie jeden przykład wizualizacji danych, o którym powinno się raczej powiedzieć:„Czegoś zabrakło”. A konkretnie, że zabrakło czasu. W tej kategorii błędów przodują media i poniższy przykład właśnie z medium jest zaczerpnięty.

Za dużo kreatywności - błędy w wizualizacji danych
Źródło: Vox Media (za Coolinfographics.com)

Wizualizacja przedstawia trzy zmienne dotyczące USA: wielkości donacji na organizacje pozarządowe zajmujące się różnymi chorobami i liczbę zmarłych na te choroby w rozbiciu na 10 kategorii chorób.

Ma rację Randy Krum, który infografikę pokazał na swoim blogu, że zgodnie z regułami sztuki, gdy używamy koła, to reprezentować wartości zmiennej powinno pole jego powierzchni, a nie promień. W tym przypadku powoduje to, że najniższe wartości są niemożliwe do zauważenia.

Drugą kwestią jest sortowanie danych. Zastosowany sposób wizualizacji traktuje dane jak dwie oddzielne tabele, a nie dwie kolumny jednej tabeli. Dlatego nawet przy oznaczeniu chorób kolorami, słabo widać dysproporcje tego, na kogo przekazujemy darowizny i śmiertelności choroby.

Po trzecie wreszcie, pokazanie legendy przy zastosowaniu 8 kolorów zamiast opisów obok kół zdecydowanie zmniejsza czytelność tej wizualizacji.

Trzy pierwsze błędy najprawdopodobniej wynikają z pośpiechu. Są one dość proste do wyłapania i łatwe do poprawienia. Trzeba mieć tylko na to czas. A mogłoby to wyglądać w ten sposób:

Błędy wizualizacji danych - Za dużo kreatywności
Źródło: Vox Media (za Coolinfographics.com)

Dodam, że dyskusyjna jest także sama analiza. Oczywistą intencją autora jest pokazanie, że Amerykanie dają pieniądze na leczenie chorób, które nie są „najważniejsze” z punktu widzenia zdrowia publicznego. Jednak przy takich porównaniach istotny jest także wiek umierających. Jeżeli na jedną chorobę umiera 100 osób w wieku przeciętnie 90 lat, a na drugą także 100, ale w wieku przeciętnie 40 lat, to ta druga jest dużo ważniejszym problemem z punktu zdrowia publicznego. I to jest powód, dla którego w statystykach dotyczących polityki zdrowotnej korzysta się ze wskaźnika utraconych lub zyskanych lat/miesięcy życia, a nie umieralności.

Chcę jeszcze zwrócić uwagę na jeden problem z wizualizacją danych za pomocą pola figury. Intuicja każe nam porównywać koła na podstawie średnicy, a nie pola (biolodzy ewolucyjni wyjaśniliby, dlaczego tak jest, ale nie tego dotyczy ten blog ;-)). Nie chcę napisać, że w żadnym wypadku nie możemy skorzystać z tego rodzaju wizualizacji danych. Możemy to spokojnie zrobić, gdy zależy nam najbardziej na czytelnym pokazaniu kolejności w ramach kategorii. Jednak dla purystów wizualizacyjnych dobrze byłoby wtedy pokazać skalę dla tego porównania.

Natomiast zdecydowanie odradzałbym unikać korzystania z innych kształtów niż kwadrat i koło do porównywania wielkości. W tym przypadku na pewno duża cześć oglądający wykres zinterpretuje go de facto jako słupkowy lub belkowy, pozostali natomiast nie będą wiedzieli, jak są porównanie wartości. Poniżej przykład, który został wskazany jako „the worst infographic ever”)

Częste błędy w wizualizacji danych - Za dużo kreatywności
Źródło: Do Rzeczy

Jak kłamać za pomocą statystyki?

Jak pisałem na początku – temat błędów i pomyłek w przygotowywaniu wykresów i wizualizacji danych statystycznych można byłoby ciągnąć jeszcze bardzo długo. Jednak następnym razem pokażę kilka przykładów wizualizacji, które mogłyby znaleźć się w klasyczniej publikacji „How to lie with statistics?”. Intencjonalne wprowadzanie w błąd jest częstą praktyką polityków i mediów, a w czasie panoszących się fake newsów warto poświęcić temu tematowi trochę uwagi.

 

W tekście korzystałem z publikacji na blogach i stronach: Collinfographics.com, Smarter Poland, www.princeton.edu, Visme.co, Ben Stanley  oraz albumu „Information Grapnics” (Taschen, 2012).

Rafał Szymczak, zajmuje się analizą i wizualizacją danych, prowadzi szkolenia i warsztaty na ten temat, autor bloga opowiadane.com.pl

 

Kiedy mniej znaczy więcej, czyli o błędach wizualizacji danych

Żeby korzystać z Qlik Sense dobrze jest mieć wysokie kompetencje dotyczące statystyki, analityki biznesowej, uczenia maszynowego i deep learning. Czasem jednak musimy także opowiedzieć o wynikach naszej pracy osobom, które kompetencje te mają rozwinięte w mniejszym stopniu.

Im bardziej zaawansowane jest narzędzie analizy danych, a taki jest Qlik Sense, tym ten problem staje się istotniejszy. Na szczęście Qlik Sense ma w wysokim stopniu rozwinięte funkcjonalności umożliwiające efektywne komunikowanie, w szczególności wizualną prezentację danych. Trudno jednak oczekiwać, aby osoby, których główną kompetencją jest analiza danych, były również ekspertami w dziedzinie ich wizualizacji. Warto byłoby zatem wiedzieć jak unikać, często prostych błędów przy tworzeniu wykresów.

Gdy spotykam się na warsztatach lub szkoleniach z osobami, przed którymi staje to wyzwanie, zaczynam od jednego zdania: „Pamiętaj: mniej, znaczy więcej”. Przeważnie jednak uczestnicy oczekują czegoś więcej niż jednozdaniowej rekomendacji. Swoją opowieść o tym, co to znaczy, zaczynam od przeglądu częstych błędów i pomyłek, powiedzenia co konkretnie oznacza „za dużo” przy wizualizacji danych. Lepiej uczyć się na błędach cudzych niż własnych.

Jakie mamy zatem rodzaje tego „za dużo”?

Najczęstsze błędy wizualizacji danych

#1 Za dużo użytych metod wizualizacji

Wykres poniżej został zaczerpnięty z prezentacji na blogu poważnej instytucji publicznej. Cała, dość długa prezentacja, jest przygotowana komunikacyjnie poprawnie. Jednak przestawienie informacji na wykresie słupkowym, gdzie wysokością oznaczone są wartości w poszczególnych kategoriach, natomiast jedna wartość jest wyróżniona jednocześnie kolorem i polem (!), musi powodować konfuzję. Czy w Polsce cena 1 MHz per capita należy do wysokich czy niskich? W pierwszej chwili możemy mieć wątpliwości, ponieważ polski słupek pod względem wysokości na wykresie plasuje się na 4-5 miejscu w UE, chociaż w rzeczywistości jesteśmy poniżej średniej.

Błędy wizualizacji danych: za dużo użytych metod wizualizacji
Źródło: Blog Urzędu Komunikacji Elektronicznej.

Tymczasem sam kolor, przy tym dość prostym wykresie, byłby zupełnie wystarczającym sposobem wyróżnienia wybranej wielkości. Dodam tylko, że posługiwanie się polem powierzchni jako sposobem wizualizacji wartości jest dość ryzykowne, ale o tym innym razem.

Warto zatem pamiętać, że za dużo metod przedstawienia tej samej informacji użytych na jednym wykresie może prowadzić do skutków odwrotnych od zamierzonego.

Zobacz także: Programy do wizualizacji danych

#2 Za dużo kompetencji

Przede wszystkim chodzi tu o wykorzystywanie nieintuicyjnych sposobów wizualizacji danych. Przodują w tym uczeni, przyzwyczajeni do prezentowania danych w publikacjach naukowych, ale często zdarza się to także analitykom biznesowym. To, co w tekście naukowym jest uzasadnione, w materiale dla szerszej publiczności będzie całkowicie niezrozumiałe.

Czytelnicy czasopisma naukowego wiedzą na przykład, jak interpretować wykres skrzynkowy i rozumieją, co to jest odchylenie standardowe. Jednak większość osób, nawet z wyższym wykształceniem, nie tylko nie jest w stanie podać matematycznej definicji odchylenia standardowego, ale nie potrafi też zinterpretować jego znaczenia, choćby własnymi słowami. A raport, z którego wykres statystyczny zaczerpnąłem był adresowany do nauczycieli, decydentów (polityków) i rodziców.

Poniższa wizualizacja danych jest przykładem takiego błędu. Miała ona pokazywać różnicę wieku respondentów (uczniów) w dwóch pomiarach kompetencji, nomen omen, matematycznych uczniów (TIMSS). Jednak, żeby wiedzieć jak zinterpretować gęstość prawdopodobieństwa, potrzeba kompetencji statystycznych przekraczających poziom maturalny. Zatem będąc rodzicem pozostaje mi jedynie wierzyć na słowo autorom. Zamiast wykresu mogli spokojnie napisać „wierzcie nam, że tak jest”.

Błędy wizualizacji danych: za dużo kompetencji
Źródło: Raport krajowy z międzynarodowego badania TIMSS 2019, Instytut Badań Edukacyjnych 2019

W przypadku tej wizualizacji widzimy więcej poważnych błędów. Żeby je wyjaśnić muszę przez chwilę użyć języka, z którym nie-matematycy mogą czuć się niekomfortowo. Zatem proponuję uwierzyć mi, że tak jest i przejść do kolejnego przykładu.

Zacznijmy od źle dobranego wykresu. Funkcja gęstości prawdopodobieństwa jest wykorzystywana przede wszystkim do scharakteryzowania prawdopodobieństwa zmiennej ciągłej. Jednak „wiek” na pewno taką zmienną nie jest (nawet jeżeli zamiast dla lat chcemy jej wartość pokazać dla dni urodzenia).

W analizach zmiennej ciągłej posługujemy się funkcją, której dziedziną jest zbiór o nieskończonej liczbie elementów, a dla obliczenia prawdopodobieństwa – całką tej funkcji (humaniści, proszę nie mówić, że nie ostrzegałem). Jeżeli natomiast chcemy pokazywać gęstość prawdopodobieństwa zmiennej dyskretnej (lub dla przedziałów zmiennej ciągłej), to nie posługujemy się wykresem liniowym, lecz słupkowym (histogramem).

Wreszcie błąd dotyczący merytorycznego sensu używania gęstości prawdopodobieństwa w tym przypadku. Autorom chodziło o to, że w obu edycjach badania próby, na których je przeprowadzono różniły się wiekiem badanych, ponieważ w Polsce zmienił się wiek rozpoczęcia edukacji. Nie trzeba pokazywać skali tego zjawiska, tylko napisać, że na ich podstawie można wnioskować bardziej o zmianie jakości edukacji matematycznej, a nie o wpływie czynników społecznych i kulturowych.

Wszystko to każe podejrzewać, że autorem tego wykresu była osoba, która bardziej aspiruje do bycia naukowcem, niż jest nim w rzeczywistości. Chociaż znowu – cały raport jest ważny merytorycznie, ciekawy i profesjonalnie opracowany, a przywołany przykład traktowałbym jako kleks na eleganckim garniturze lub garsonce.

#3 Za dużo medialności

Możemy znaleźć dziesiątki sytuacji, gdy media prezentują dane dobrane „pod” przyjęte z góry tezy. Poniższy przykład jest jednak interesujący dlatego, że autorem tej wizualizacji danych jest NIK a wizualizacja powstała w oparciu o dane statystyczne Policji. Są to instytucje, które powinny podchodzić do prezentowania danych szczególnie uważnie. Wykres pochodzi z alarmistycznego raportu na temat porażki Narodowego Programu Zdrowia Psychicznego, a zaprezentowane dane wydają się potwierdzać taką tezę.

Błędy wizualizacji danych: za dużo medialności
Źródło: REALIZACJA ZADAŃ NARODOWEGO PROGRAMU OCHRONY ZDROWIA PSYCHICZNEGO, NIK 2016.

Dane te mogą budzić wątpliwości, ponieważ byłby to najwyższy roczny wzrost liczby samobójstw od II wojny światowej (wyższy od rekordowego pod tym względem 1976 roku).

Błędy wizualizacji danych: za dużo medialności
Źródło: Opracowanie własne na podstawie „Samobójstwo – przypadek czy konieczność?” Hołyst B., Warszawa 1983.

Wątpliwości wzrastają, gdy sprawdzimy, że takiej dynamiki nie potwierdzają statystyki GUS dotyczące tego samego zjawiska. Przyczyna jest prosta i widać ją zresztą w samych danych policyjnych. W 2013 roku Policja zmieniła metodologię i zaczęła do liczby raportowanych samobójstw zaliczać także te zgony, których przyczyny były nieznane (sic!). W efekcie liczby samobójstw raportowanych przez GUS i Policję przestały się różnić.

Błędy podczas tworzenia wykresów: za dużo medialności
Źródło: Liczba samobójstw, opracowanie własne na podstawie danych GUS i Komendy Głównej Policji.

NIK posługując się danymi Policji porównał gruszki z jabłkami (liczbę wszystkich samobójstw i samobójstw, których przyczyna jest nieznana). Jednak raport był powszechnie cytowany, a dane przyjmowane jako dowód przedstawionej tezy.

Polecamy do czytania: Analityka biznesowa – co to jest i jakie są jej rodzaje?

#5 Za dużo kolorów

Zdarza się, że autor chce równocześnie podkreślić wiele informacji i stara się każdą z nich wyróżnić innym kolorem. Albo po prostu bez zastanowienia wybiera opcję wielokolorową wykresu statystycznego. Jednak użycie więcej niż  3-4 kolorów nie pozostawia szans, aby odbiorca zorientował się, co według autora wizualizacji jest ważne. Będzie miał wrażenie kakofonii i niewiele zrozumie, co wynika z danych.

Błędy wizualizacji danych: za dużo kolorów
Źródło: Visme.co/blog.

Powyższy przykład pokazuje praktycznie wszystko, co można zrobić źle w wykresie słupkowym. Użycie 17 (!) kolorów nie wyróżnia informacji, a zaciemnia obraz. Nie ma żadnego powodu, żeby na wykresie nie użyć jednego koloru. Pod warunkiem, że nie będzie się kategorii sortowało alfabetycznie, tylko według wartości. I oczywiście, że będą one opisane. Wprawdzie po liczbie kategorii możemy się zorientować, że być może chodzi o polskie regiony NUTS 2, jednak nieopisanie wykresu skazuje nas na domysły.

Wracając do liczby kolorów – dobrą praktyką jest zaczynanie projektowania wykresu statystycznego od dwóch kolorów. Kolejne kolory należy dodawać dopiero wtedy, gdy pojawia się konieczność wyróżnienia jakiejś wartości lub obszaru wykresu (np. prognozy). A jak już jesteśmy przy kolorach, to zwrócę uwagę, że 7-10 proc. ludzkości jest dotknięta daltonizmem. Dotyczy to prawie wyłącznie mężczyzn, szczególnie tych z krajów Północy. Co w oczywisty sposób oznacza, że lepiej w wizualizacji danych nie wykorzystywać zestawienia kolorów czerwony-zielony.

#6 Za dużo uproszczeń

Kontynuując wątek kolorów – często zapominamy, że dobrym rozwiązaniem może być zastosowanie kolorów skali monochromatycznej (stopnia nasycenia jednym kolorem), szczególnie w przypadku mniejszej liczby kategorii użytych w wizualizacji. Chociaż tu też można wpaść w pułapkę, co widać poniżej, gdzie intensywnością koloru została zwizualizowana wartość zmiennej (śmiertelności COVID-19) dla kilkunastu przedziałów wieku.

Błędy wizualizacji danych: za dużo uproszczeń
Źródło: „Zrozumieć COVID- 19”, PAN, 2020.

Autorzy na jednym wykresie próbowali przedstawić trzy zmienne (płeć oraz odsetek osób i ryzyko śmierci w kohortach wiekowych), jednak zrobili to w dość nieszczęśliwy sposób. Ryzyko śmierci, które wydaje się najbardziej interesujące w publikacji „Zrozumieć COVID-19”, jest przedstawione w sposób najmniej czytelny. Nie dość, że kategorii jest kilkanaście, to nie znajdziemy nigdzie skali, ani opisów, które pozwolą nam na odczytanie wartości.

Pokazuje to kolejny rodzaj błędu przy wizualizacji danych statystycznych, czyli „za dużo uproszczeń”.  Chcemy równocześnie przekazać wiele informacji, ale staramy się maksymalnie uprościć wizualizację, aby także nieprofesjonaliści nas zrozumieli. Lepiej w takiej sytuacji zrobić dwa wykresy niż próbować wszystko upchnąć na jednym.

Sytuacja jest nieco zawstydzająca, ponieważ wykres pochodzi z publikacji PAN autorstwa wybitnych uczonych, również socjologów, statystyków i matematyków. Znowu, raport jest ważny i ciekawy, a prosty błąd autorom nie przystoi.

Zamiast podsumowania

Im bardziej zaawansowane, stwarzające większe możliwości wizualizacji i wygodnie w korzystaniu jest narzędzie, tym paradoksalnie większe jest ryzyko popełniania błędów. Ponieważ Qlick Sense cechy te posiada, to warto, żeby jego użytkownicy mieli świadomość czyhających zagrożeń. Dlatego odsyłam także do artykułu: 10 częstych błędów w analizie danych. Sam obiecuję, że o kolejnych przykładach błędnych wizualizacji danych napiszę następnym razem.

 

W tekście korzystałem z publikacji na blogach „Smarter Poland”, Visme.co i dziennika the Guardian.

Rafał Szymczak, zajmuje się analizą i wizualizacją danych, prowadzi szkolenia i warsztaty na ten temat, autor bloga opowiadane.com.pl

Business Intelligence a raportowanie – od czego uzależnić wybór rozwiązań?

W kierowaniu przedsiębiorstwem kluczową rolę odgrywa dostęp do sprawdzonych i kompletnych informacji. Niekiedy do podejmowania decyzji wystarczą podstawowe funkcjonalności raportowe, dostępne w użytkowanych przez firmę systemach informatycznych i aplikacjach. Często jednak organizacje mają większy apetyt na analitykę biznesową i wdrażają dodatkowe rozwiązania Business Intelligence (BI). Od czego zatem zależy wybór narzędzi do analiz biznesowych i kiedy sięgać po BI?

Każdy, kto chce podjąć słuszną decyzję, oczekuje wglądu w informacje, które pozwolą ocenić sytuację, rozpoznać dostępne opcje i przewidzieć konsekwencje ewentualnego wyboru. Nie inaczej jest w przedsiębiorstwach, gdzie na co dzień zapadają różnego rodzaju decyzje – od operacyjnych związanych z bieżącą działalnością, po te kluczowe o strategicznym znaczeniu.

Odkąd zdecydowana większość procesów biznesowych została w pełni zinformatyzowana, obraz sytuacji w organizacjach tworzony jest w oparciu o dane przetwarzane przez użytkowane w firmach oprogramowanie. Choć informacje publikowane w różnych raportach z rynku IT nie są precyzyjne, wszystkie zgodnie ukazują wyraźny trend. W ostatnich latach systematycznie rosła liczba systemów i aplikacji użytkowanych przez organizacje. Statystyki wskazują, że duże firmy użytkują od kilkudziesięciu do ponad stu różnych rozwiązań informatycznych. Część z nich działa w modelu on-premise (jako oprogramowanie instalowane w siedzibie firmy), natomiast coraz większy udział mają aplikacje z chmury lub rozwiązania działające w modelach hybrydowych. Jeśli weźmiemy pod uwagę, że duża lub średniej wielkości firma używa jednocześnie kilkadziesiąt różnych aplikacji i systemów, łatwiej zrozumiemy, dlaczego tak ważne staje się zarządzanie informacją.

Duża liczba systemów może utrudniać zarządzanie informacją

Zdecydowana większość informatycznych rozwiązań biznesowych oferuje własne raporty, które mniej lub bardziej chętnie są wykorzystywane przez użytkowników. Trzeba jednak podkreślić tu jedną istotną kwestię. Dedykowane rozwiązania koncentrują się na obsłudze wybranego wycinka ogólnej działalności organizacji, którym najczęściej jest określony proces lub grupa procesów biznesowych. W związku z tym wbudowane w danej aplikacji raporty z reguły odnoszą się tylko do tego jednego obszaru. Dla pracowników zaangażowanych w dany wycinek działalności raporty generowane przez tę aplikację mogą okazać się wystarczające i pomocne do utrzymania wysokiej efektywności w pracy. Dla pozostałych pracowników, którzy nie są użytkownikami tej aplikacji, ponieważ angażują się w inne działania, a którzy czasem potrzebują informacji z takiego rozwiązania, pojawiają się jednak ograniczenia. Po pierwsze mają oni utrudnioną dostępność do aplikacji. Po drugie pojawia się problem czasu, który jest potrzebny na uzyskanie wymaganej informacji. Jakie są tego konsekwencje?

Organizacja może używać wielu optymalnie dobranych pod kątem określonych działań aplikacji, natomiast patrząc z perspektywy wyższych szczebli hierarchii firmy, bez właściwego zarządzania wiedzą całkowita wartość użytkowa oprogramowania maleje. Dzieje się tak dlatego, ponieważ decydenci odpowiedzialni za wytyczanie strategii i podejmowanie decyzji nie mają ułatwionego dostępu do zintegrowanej informacji przetwarzanej w dziesiątkach rozwiązań. Bez integracji rozproszonych danych organizacje borykają się z szeregiem problemów, które mają swoje źródło w braku przepływu informacji między systemami. W konsekwencji zaburzona zostaje komunikacja pomiędzy działami firmy (komunikacja horyzontalna) oraz pomiędzy pracownikami operacyjnymi, a kierownictwem i zarządem (komunikacja wertykalna).

Wydobyć informacje z rozproszonych systemów i aplikacji

Stara szkoła w integracji rozwiązań bazowała na dwóch podejściach. Pierwszym z nich było modyfikowanie kodu systemów w sposób, który pozwoliłby na swobodną wymianę danych między nimi. Podejście to w zmienionej formie stosowane jest również dziś, z tym że obecnie nie modyfikuje się kodu oprogramowania, a wykorzystuje wbudowane w systemy API (rodzaj interfejsu dla osób odpowiedzialnych za integrację), które pozwala w łatwy sposób skomunikować ze sobą systemy. Zanim jednak koncepcja API rozwinęła się na dobre, organizacje przeznaczały pokaźne kwoty na integrację, ponieważ do modyfikowania kodu niezbędni byli informatycy. Drugim podejściem było wykorzystywanie arkuszy kalkulacyjnych, które z jednej strony służyły do gromadzenia wymaganych danych, a z drugiej strony do generowania zestawień i raportów, z których mogli skorzystać decydenci.

Warto wspomnieć, że jeszcze w pierwszych latach tego wieku największe w Polsce banki do procesów planowania i budżetowania wykorzystywały przede wszystkim arkusze kalkulacyjne. Nie było wówczas mowy o automatycznym konsolidowaniu danych z wielu źródeł. W powstawanie tych rozbudowanych arkuszy zaangażowane były rzesze analityków, a jednym z największych problemów był liczony w tygodniach czas powstawania raportów. Managerowie otrzymywali zestawienia oparte na danych, które często były już nieaktualne, a ponieważ praca z arkuszami była karkołomna i wymagała ręcznej obsługi narzędzia, nigdy nie było pewności, czy w zestawieniach nie ma błędów. Przygotowanie tego rodzaju raportów i zestawień pociągało za sobą znaczne koszty operacyjne i budziło frustrację nie tylko samych analityków, ale przede wszystkim zarządów, podejmujących strategiczne decyzje dotyczące przyszłości banków. Takie przykłady „karkołomnej integracji” można mnożyć i oczywiście dotyczą one nie tylko planowania finansowego, ale wszystkich ważnych obszarów działalności – choćby styku sprzedaży, produkcji i logistyki lub współpracy marketingu, sprzedaży i działu obsługi klienta. Oczywiście dziś wciąż działają firmy, których model przetwarzania danych opiera się na Excelu. Do pewnego momentu rozwoju organizacji to narzędzie analityczne sprawdza się świetnie, natomiast po przekroczeniu tego progu korzystanie z niego powoduje, że firmie grozi ryzyko osłabienia pozycji konkurencyjnej – rywalizację wygrywają gracze, którzy sprawniej zarządzają wiedzą i potrafią na tym polu redukować koszty.

Business Intelligence integruje dane na użytek zaawansowanych i elastycznych analiz

Dziś do integracji systemów wykorzystuje się całą gamę narzędzi i platform dobieranych zależnie od wymagań decydentów. Coraz częściej jednak organizacje nie mają potrzeby łączenia ze sobą aplikacji, a jedynie gromadzenia w scentralizowanym miejscu przetwarzanych przez nie danych. Taką funkcję pełni między innymi system klasy Business Intelligence (BI), który do wygenerowania analiz pobiera z różnych źródeł niezbędne dane.

Zadaniem BI jest dostarczanie użytkownikom wymaganej przez nich wiedzy w wygodny i użyteczny sposób, oczywiście możliwie szybko i rzetelnie, czyli w oparciu o dane rzeczywiste. Systemy klasy BI nabierają szczególnego znaczenia w następujących uwarunkowaniach:

  • organizacja wykorzystuje różne rodzaje oprogramowania, często działają one niezależne od siebie, ale przetwarzane przez nie informacje (cząstkowe) mają istotny wkład w budowanie wiedzy potrzebnej decydentom (ogólne spojrzenie na firmę);
  • managerom zależy na analizowaniu sytuacji przedsiębiorstwa w różny sposób; chcą oni mieć sporą elastyczność w podejściu do dostępnych w organizacji danych, dobierać wymiary i kategorie danych, tak aby móc patrzeć holistycznie na organizację z różnych perspektyw, wychodząc od różnego rodzaju zapytań;
  • managerowie chcą w sposób elastyczny i interaktywny eksplorować otrzymywane wyniki analiz – rozumieć przyczyny zjawisk, wgłębiać się w detale (stosować metodę analiz drill down), czy modyfikować raporty w zależności od modyfikacji wybranych zmiennych. Zależy im też na personalizowaniu raportów i łatwym zarządzaniu wizualizacją danych;
  • w organizacjach stosunkowo trudno jest przygotować potrzebne raporty czy analizy w oparciu o użytkowane rozwiązania i dostępne zasoby osobowe – jest to uciążliwe lub obarczone sporym marginesem błędu;
  • managerowie chcą dysponować narzędziem do prognozowania przyszłości – nie tylko zjawisk, ale również scenariuszy, które mogą się zrealizować zależnie od podjętych decyzji;
  • decydentom zależy na narzędziu, które w oparciu o rozproszone źródła informacji może wizualizować dane, wskazywać źródła ryzyka włącznie z wysyłaniem powiadomień o fakcie ich wystąpienia oraz dawać przesłanki, na podstawie których w organizacji można doskonalić poszczególne procesy biznesowe lub koncentrować się na poprawie wybranych wskaźników biznesowych;
  • analizy biznesowe mają być dostępne na dowolnym urządzeniu i w dowolnym czasie i mają bazować na danych przetwarzanych w czasie rzeczywistym.

W zasadzie każdy z powyższych punktów jest wystarczającą przesłanką do wdrożenia w firmie systemu BI.

5 cech wyróżniających dobry system Business Intelligence

Patrząc na Qlik Sense, który według Gartnera jest liderem wśród światowych rozwiązań BI, kluczowe cechy dobrego systemu do analityki biznesowej to:

  • możliwość eksplorowania danych z wielu rozproszonych źródeł wraz z badaniem wszystkich relacji pomiędzy nimi – pozwala prowadzić w sposób elastyczny wszechstronne analizy;
  • wsparcie mobilności – dostępność analiz w czasie rzeczywistym opartych na aktualnych danych na dowolnym urządzeniu mobilnym;
  • interaktywność, wizualizacja danych i personalizacja – analizy są tym bardziej użyteczne, im bardziej sposób ich prezentacji jest dopasowany do indywidualnych wymagań i zapytań użytkowników;
  • wsparcie analiz sztuczną inteligencją, dzięki czemu użytkownicy mogą dodatkowo pogłębiać lub modyfikować analizy;
  • możliwość skalowania systemu wraz z rozwojem organizacji i ewolucją potrzeb użytkowników oraz możliwość adaptacji rozwiązania przez inne systemy informatyczne.

Jednym ze skutków transformacji cyfrowej jest ciągły wzrost ilości danych przetwarzanych przez biznesowe rozwiązania informatyczne. Ponieważ w podejmowaniu decyzji liczą się przede wszystkim czas i klarowne informacje, coraz większym wyzwaniem, przed jakim stoją firmy, jest efektywne selekcjonowanie danych, które mogą mieć wpływ na podejmowanie decyzji. Stąd tak duże zainteresowanie systemami BI – według prognoz rynek analityki biznesowej w ciągu najbliższej dekady ma się podwoić.

O zmianach na rynku motoryzacyjnym i Qliku, pomagającym za tymi zmianami nadążać.

Rozmowa dotyczy, między innymi,  zmian w sposobie analizy danych, możliwych dzięki wykorzystaniu Qlik Sense.

Jak podążać za dynamicznymi zmianami na rynku moto? 

Postęp technologiczny, nowe regulacje i zmieniające się oczekiwania klientów to tylko niektóre z wyzwań stojących dziś przed rynkiem motoryzacyjnym. Wielu graczy, wiele modeli, nowe jednostki napędowe i nowe kanały sprzedaży – wszystko to powoduje, że rynek jest niezwykle trudny do przeanalizowania. O tym jak zmienia się współczesna motoryzacja i jak Qlik zmienił metody analizy tego rynku rozmawiają Robert Kamiński – Redaktor Naczelny portalu „Komputer w Firmie”, z Wojciechem Drzewieckim – twórcą Instytutu Badań Rynku Motoryzacyjnego SAMAR 

Robert Kamiński: Właśnie mija 30 lat od momentu kiedy zacząłeś zajmować się badaniami naszego rynku motoryzacyjnego – przypomnij, proszę jakie były początki. 

Wojciech Drzewiecki: Firma istnieje od początku lat 90, a konkretnie od roku 1992. Sama marka Samar pojawiła się dwa lata później. Pierwsze analizy przygotowywałem sam przy współudziale żony, pracując jednocześnie w firmie Nissan, a później Ford gdzie byłem odpowiedzialny m.in. za planowanie sprzedaży. Szybko okazało się, że zainteresowanie producentów i mediów jest tak duże, że nadszedł moment kiedy trzeba było dokonać wyboru i skupić się na jednym zadaniu. Wybrałem badania rynku. 

Niebawem pojawił się pierwszy pracownik, potem kolejni. Liczba zadań stojących przed nami rosła, a to wymagało powiększenie załogi. Obecnie zatrudnione są 24 osoby – przeważają informatycy, którzy pracują nad aplikacjami związanymi z analizami, nową stroną Samar i portalem www.autokatalog.pl

Robert Kamiński: Można śmiało powiedzieć, że masz pełen przegląd rynku motoryzacyjnego – od początku wolnej Polski. Jak z tej perspektywy oceniasz współczesne wyzwania dla branży moto? 

Wojciech Drzewiecki: Zmiany są oczywiście olbrzymie, a ostatnie lata to istna rewolucja. Zmienia się kwestia postrzegania mobilności, rozwijają narzędzia finansowe, pojawiają nowe trendy w zakresie napędów, kształtowane w dużej mierze poprzez nowe regulacje. Zmiany w przepisach podyktowane chęcią walki z globalnym ociepleniem, wymuszają szybkie zmiany kierunków rozwoju. Elektromobilność to dziś słowo klucz. Problem w tym, że o ile producenci są w stanie w miarę szybko dostosować się do kreowanych wymogów i wyprodukować niemal wszystko – myślę głównie o samochodach elektrycznych, to niekoniecznie my, jako potencjalni odbiorcy tych produktów będziemy w stanie je zaakceptować. Z jednej strony kwestia rozwoju infrastruktury i szerokiej dostępności punktów ładowania w ogólnej ocenie nie przedstawia się imponująco. Oczywiście aktualni użytkownicy aut elektrycznych do których i ja należę nie mają z tym większego problemu, jednak odbiór rynku jest nieco inny, co może wpływać na decyzje zakupowe. Dodatkowo pandemia, a także obecny konflikt w Ukrainie zakłóciły nie tylko łańcuchy dostaw, ale także wpłynęły na dostępność niektórych surowców i komponentów niezbędnych do produkcji aut, w tym oczywiście aut elektrycznych. To spowodowało wzrost ich cen, co przekłada się bezpośrednio na wzrost cen samochodów. Nie zapominajmy również o tym, że obecnie rosną ceny wszystkich towarów i jednocześnie mamy wysoką inflację, która wpływa na zasobność naszych portfeli. Nasze pensje na rynku krajowym, ale i w całej Unii nie podążają za tym trendem w sposób proporcjonalny. To na pewno czynniki destabilizujące rynek. Popyt na auta spada i trend ten widoczny jest w całej Europie. 

Robert Kamiński: Ceny nowych samochodów faktycznie poszybowały i dotyczy to nie tylko „elektryków”. Jak spoglądam na obecną cenę nowego odpowiednika mojego samochodu, wydaje się że wzrosła o 50% w ciągu zaledwie czterech lat. 

Wojciech Drzewiecki: To oczywiście twoje odczucie, ale do końca nie możesz być pewny, jaki jest rzeczywisty wzrost. W przypadku samochodów, proste porównanie cennika jest praktycznie niemożliwe, bo nie porównujemy takich samych produktów. Auta się zmieniają, zmienia się ich wyposażenie. Porównanie jeden do jednego nie jest możliwe bez zaawansowanej analityki. O ile zmiana przepisów narzucona przez ustawodawcę krajowego i unijnego powoduje że wszystkie samochody się zmieniają, co można w analizie finalnie pominąć, o tyle zmiany wprowadzane przez producentów mające na celu wyróżnienie ich produktów na tle rynku, wymagają analizy. A zmian tych jest sporo. Naszym zadaniem jest takie dopasowanie aut z tych 2 różnych okresów, aby były funkcjonalnie jak najbardziej do siebie zbliżone. Czyli żebyśmy mieli sytuację jak z masłem czy chlebem – gdzie może zmienić się cena i nieznacznie gramatura, ale wciąż mamy ten do czynienia z tym samym produktem. 

Robert Kamiński: Jednak dochodzimy do sytuacji, gdy auta stają się bardzo drogie – również te klasyczne, spalinowe. Kogo będzie stać na samochód? Czy w niedalekiej przyszłości stanie się dobrem luksusowym, dostępnym jedynie dla elity? 

Wojciech Drzewiecki: Niekoniecznie – obecnie dynamicznie rozwija się rynek wtórny, choć w perspektywie należy się spodziewać większego zainteresowania najmem. Jest to wygodne dla producenta, który chce utrzymać pieczę nad samochodem, w pełni kontrolując jego eksploatację. Również współcześni klienci są zainteresowani częstą zmianą samochodów, nie przywiązując się do konkretnego modelu. 

Robert Kamiński: Najem to bardzo wygodna forma użytkowania samochodu, która w przypadku samochodów elektrycznych ma dodatkową zaletę w postaci wyeliminowania obaw przed awarią kosztownej baterii. Jednak ceny najmu mogą być akceptowalne dla osób czynnych zawodowo, dla których jest to narzędzie pracy. Tymczasem nasze społeczeństwo się starzeje – czy emerytów będzie stać na takie comiesięczne obciążenie? 

Wojciech Drzewiecki: Jak wspomniałem producenci chcą mieć kontrolę nad samochodem, jego eksploatacją i regularnymi przeglądami, właśnie po to, aby przez cały cykl życia mógł być wynajmowany wielokrotnie. Opłata za wynajem samochodu używanego, kilkuletniego – ale nadal w dobrej kondycji – powinna być akceptowalna dla szerszych grup społecznych. Obecnie jesteśmy na progu zmian i w przededniu nowych form „posiadania”. 

Robert Kamiński: To o czym rozmawiamy pokazuje jak bardzo rynek motoryzacyjny jest złożony i zmienny. Oznacza to, że przygotowując raporty musisz uwzględnić olbrzymie „porcje” informacji. Zatem – jak udaje Ci się zapanować nad danymi?     

Wojciech Drzewiecki: Z każdym rokiem staje się to coraz bardziej skomplikowane. Zaczynaliśmy korzystając z arkusza kalkulacyjnego, którym był – już zapomniany – Quattro Pro. Później nastała era Excela, który jest nadal przez nas używany – choć nie jest oprogramowaniem, które pozwala przygotować bardziej zaawansowaną analitykę. Ponieważ nie umożliwia obróbki tak dużych zbiorów danych jakimi dysponujemy jest traktowany jako narzędzie pomocnicze.  

Potrzebowaliśmy bardziej zaawansowanego rozwiązania – próba zamówienia dedykowanej aplikacji spełzła na niczym – zatem musieliśmy opracować własne rozwiązanie. Zależało nam na prostej i łatwej w obsłudze formie prezentacji danych. Z biegiem czasu zaczęliśmy wprowadzać zmiany w naszym oprogramowaniu testując możliwości zagłębiania się, łączenia informacji, co jednak okazało się dość trudnym zadaniem. 

Na owe czasy było to dobre rozwiązanie, jednak z uwagi na ciągle pojawiające się nowe strumienie danych pochodzące z różnych źródeł poszukiwałem czegoś zdecydowanie bardziej elastycznego. Zainteresowałem się technologią business intelligence, a w efekcie Qlik Sense, którego notabene jesteś dobrym „adwokatem”. W ten sposób nawiązaliśmy współpracę z firmą Hogart i przystąpiliśmy do wdrożenia. 

Robert Kamiński: Jak zmieniała się analityka w minionych latach?  

Wojciech Drzewiecki: Jeśli cofniemy się 5-10 lat wstecz widzimy olbrzymią różnicę w analityce. Niegdyś producent pozyskiwał bazę danych, następnie przetwarzał te dane przez miesiąc, przygotowywał tabele i prezentacje, ale w momencie publikacji posługiwał się de facto nieaktualnymi danymi. Tym samym analiza tych danych miała niewielkie znaczenie. Tempo prac z wykorzystaniem głównie excela było wręcz ślamazarne. 

Dziś jeśli pozyskamy dane w ciągu 3-4 dni roboczych to aplikacja, która wykorzystuje silnik Qlika pozwala na błyskawiczne dotarcie do informacji nieomal w czasie rzeczywistym. Ważne jest zasilenie dobrymi danymi – dzięki temu mamy natychmiast prezentacje trendów w dowolnym układzie, który sobie wymyślimy.. 

Robert Kamiński: Jakie główne zalety dostrzegasz w platformie business intelligence? 

Wojciech Drzewiecki: Obecna rozwiązania BI dają dużo większe możliwości, w porównaniu do dedykowanego oprogramowania – szczególnie z uwagi na coraz większą liczbę źródeł informacji a tym samych danych które trzeba ze sobą połączyć aby pokazać nowe trendy. Dzięki zastosowaniu Qlik Sense powstała aplikacja, która umożliwia śledzenie sprzedaży w różnych kanałach, ocenę potencjału rynku dla poszczególnych marek, dająca możliwość prześledzenia zmian i możliwości wizualizacji na mapach.  

Robert Kamiński: Co się zmieniło dzięki zastosowaniu business intelligence? 

Wojciech Drzewiecki: Zmiana jest fundamentalna – business intelligence daje większe możliwości: elastyczność, szybkie tempo przetwarzania informacji, prosty dostęp do danych które do tej pory były pobierane „ręcznie”. Możliwość połączenia wielu baz daje olbrzymie możliwości w pozyskiwaniu konkretnych informacji, ocenie trendów, kreowaniu nowych zestawień, które nie były możliwie do przygotowania, pomimo że dane mieliśmy w zasięgu. I wreszcie – kwestia informacji o zmianie cen i indeksy cenowe. 

Robert Kamiński: Dlaczego indeksy cenowe są tak ważne? 

Wojciech Drzewiecki: Motoryzacja nie jest branżą jak np. branża spożywcza gdzie można łatwo porównać jak zmienia się np. cena masła czy cukru. W przypadku produktu jakim jest samochód, który nie jest jednorodny – jego specyfikacja się zmienia, z uwagi na postęp technologiczny, przepisy zewnętrzne – porównanie jest bardzo skomplikowane.  

Dzięki indeksom cenowym widzisz jak decyzje o zmianach cen wpływają na sprzedaż i jak to jest w przypadku konkurencji. Sama decyzja o zmianie cennika nie musi dać informacji o reakcji rynku w kolejnych miesiącach, ale krzywe trendu mogą wskazywać nadchodzące zmiany. Bieżące wyniki sprzedaży mogą pokazywać wzrosty, a tymczasem krzywa trendu już się załamuje. 

Dzięki Qlik stało się możliwe dynamiczne porównywanie cen, oraz tworzenie indeksów cenowych i mam nadzieję że to co dziś robimy będzie przełomem w tym zakresie. 

Wyświetlam Samar PL Geo do artykułu.png

Przykład arkusza analiz rynku: źródła pochodzenia pojazdów rejestrowanych w Polsce w listopadzie 2022.

Robert Kamiński: Co Ci się najbardziej podoba w Qliku?  

Wojciech Drzewiecki: Elastyczność, możliwość wykorzystania każdego arkusza, tabeli i każdej zawartej w nich informacji jako filtra. W dowolnym momencie, na dowolnym ekranie. Do tej pory był zdefiniowany panel filtrów w różnych częściach aplikacji. Obecnie dane mamy praktycznie na jednym ekranie. Jeśli chcemy się zagłębić, przygotować kolejne arkusze z bardziej pogłębionymi danymi – możemy to zrobić szybko – mamy dostęp do wszystkich niezbędnych informacji. 

Robert Kamiński: Podsumowując – jak oceniasz wagę analiz we współczesnym biznesie? 

Wojciech Drzewiecki: Dla producentów niezwykle istotne jest zrozumienie sytuacji na rynku, zidentyfikowanie obszarów intensywnie rozwijających się, poznanie nowych możliwości, a nawet zagrożeń ze strony konkurencji. Kluczem jest jakość danych – mając dobre dane, dobre źródła informacji jesteśmy w stanie – wykorzystując BI – zrobić wszystko. Podstawa to informacje odpowiednie skategoryzowane, które są dostępne w miarę szybko, bo dzięki nim można uzyskać pełen obraz rynku. Pokazują jak wyglądamy na tle konkurencji. Zatem – jeśli chcesz utrzymać swoją pozycję na rynku i wyprzedzić konkurencję, musisz korzystać z zaawansowanych analiz. Nasze rozwiązanie może w istotny sposób pomóc w śledzeniu zmian na rynku, identyfikowaniu trendów i przewidywaniu przyszłości. Od tego nie ma odwrotu.