Uncategorized

Jak (nie)kłamać za pomocą statystyki?

Posted on 27 marca, 202328 marca, 2023 by Anna

W poprzednich wpisach pokazywałem niepoprawne wizualizacje danych wynikające nie tyle ze złych intencji, co z braku profesjonalizmu. Zgodnie z obietnicą dzisiaj chciałbym przedstawić kilka wykresów i infografik, które spokojnie mogłyby zostać umieszczone w opublikowanej 69 lat temu książce Darrela Huffa „How to lie with statistics?”. Nie zawsze jest oczywiste czy za błędami w wizualizacji danych statystycznych stoi niekompetencja, czy intencja. Dlatego wybrałem takie, w których intencja manipulacji nie budzi wątpliwości.

Nietrudno się zorientować, że w takich praktykach przodują politycy, ale znajdziemy też innych twórców wykresów statystycznych świadomie wprowadzających odbiorców w błąd. Ich wspólną cechą jest to, że autorzy chcą uzasadnić z góry przyjętą tezę za pomocą wizualizacji danych. Przyjrzyjmy się zatem kilku przykładom

Korelacja oznacza jedynie, że istnieje korelacja

Częste jest wnioskowanie na podstawie fałszywej korelacji – istniejącej między zmiennymi, które nie są od siebie zależne. Wiele z nich jest dość zabawnych (niektóre można obejrzeć w tym miejscu: https://www.tylervigen.com/spurious-correlations). Moją ulubioną jest korelacja pomiędzy liczbą filmów z Nicolasem Cage’m, a liczbą utonięć w USA na skutek wpadnięcia do basenu.

Poniżej jeden z bardzo wielu przykładów sytuacji, gdy autor na wykresie korelacje pokazuje, chociaż de facto ona nie istnieje. Problem polega jednak na tym, że autorem tej wizualizacji danych jest Apple, którego trudno podejrzewać o brak kompetencji dotyczących analizy danych.

Korelacja - Jak (nie)kłamać za pomocą statystyki — Źródło: Venngage.com

Apple za pomocą tego wykresu pokazywał, że dane zbierane przez firmę w aplikacjach (w tym wypadku Apple Maps) mają znaczenie w monitorowaniu skutków pandemii. Wykres pokazuje korelację wyszukiwania destynacji wyjazdowych z okresem lockdownu, z czego ma wynikać, że w jego trakcie mniej wychodziliśmy z domu. Być może tak było, jednak zakładanie, że mapy używamy za każdym razem, gdy wychodzimy z domu prowadzi do fałszywej korelacji. Map używamy raczej wtedy, gdy udajemy się w miejsce, do którego nie wiemy, jak dotrzeć. Z takich danych możemy zatem wnioskować, że podróżowaliśmy mniej (nic dziwnego, skoro lockdown objął także komunikację), ale na pewno nie to, że wychodziliśmy rzadziej z domu (idąc do pobliskiego parku mało kto używa mapy).

W tym wypadku „kłamstwo” miało najprawdopodobniej przyczynę marketingową. Wszystko, co dotyczyło pandemii było w 2020 roku czytane bardzo uważnie, zatem każda marka pokazująca dane dotyczące tego tematu miała gwarantowaną bezpłatną promocję. Tym bardziej, gdy firma sugeruje, że dane przez nią zbierane mają znaczenie w walce z pandemią.

Skala wszystko wytrzyma?

Kolejny przykład jest wart uwagi nie tylko z tego powodu, że pochodzi z podręcznika szkolnego, ale również, dlatego że Darrell Huffa takiego sposobu kłamstwa nie opisał. Co więcej, autorzy wizualizacji danych statystycznych podpierają się autorytetem wybitnego naukowca.

Skala - Jak (nie)kłamać za pomocą statystyki — Źródło: „Po Prostu Historia” (https://www.wsip.pl/upload/2016/11/flipbooki_html/155101/index.html#p=18), za Samarter Poland

Wykres pochodzi z podręcznika szkolnego i miał być ilustracją efektów polityki gospodarczej w przedwojennej Polsce. Nie ma wątpliwości, że światowy kryzys gospodarczy w 1929 roku spowodował gwałtowny wzrost bezrobocia także w Polsce. Jednak wykres pokazuje równie szybką poprawę sytuacji w latach 30-tych, czego dane akurat nie potwierdzają.

Jak robią to autorzy? Bezrobocie pokazują w liczbach bezwzględnych, a nie jako stopę (odsetek aktywnych zawodowo). Rynek pracy, z powodu procesów demograficznych, zmienia się pod względem liczby osób aktywnych zawodowo, zatem dane przedstawiane w liczbach bezwzględnych w kolejnych latach są nieporównywalne. Co więcej, wartości dodatnie (liczbę bezrobotnych) autorzy na wykresie pokazali jako wartości poniżej zera.
I wreszcie nie trzeba sokolego wzroku, aby zorientować się, że coś jest nie tak ze skalą. Proponuję porównać słupek reprezentujący 70 tys. bezrobotnych w 1929 roku i 620 tys. w roku 1936.

W konsekwencji spadek bezrobocia wydaje się znacznie większy niż był w rzeczywistości. A pamiętajmy, że czytelnikiem tego podręcznika są 15-latki.

Trend, którego nie ma?

Statystyki chorób budzą lęk i dlatego dobrze „sprzedają” treści publikowane w mediach. Poniżej kolejna wizualizacja danych statycznych na temat wzrostu liczby chorych na odrę. Jest to świetna ilustracja drugiego, najczęstszego po manipulacji skalą, sposobu kłamania za pomocą statystyk, czyli wybieranie jedynie tych danych, które potwierdzają naszą tezę („cherry picking”).

Telewizja TVN w alarmistycznym materiale dotyczącym wzrostu liczby chorych pokazała wykres, który ma tą tezę uzasadniać. W tym celu z trzynastoletniego szeregu czasowego wybrała jedyne cztery lata, które „potwierdzają” trend wzrostowy.

Trend, którego nie ma - Jak (nie)kłamać za pomocą statystyki? — Podana przez TVN liczba zachorowań na odrę w Polsce w latach 2010-2016 (za Smarter Poland)

Problem z wyłapywaniem takich manipulacji na ekranie telewizora polega na tym, że wykres pojawia się najwyżej na kilkanaście sekund i jego dokładniejsza analiza jest trudna.

Znowu – nie chcę pisać, że nie mamy problemu z liczbą zachorowań na odrę. Mamy i to duży. Wynika on z coraz większego odsetka osób nieszczepiących dzieci. Zjawisko to na infografice fantastycznie pokazał The Guardian (https://www.theguardian.com/society/ng-interactive/2015/feb/05/-sp-watch-how-measles-outbreak-spreads-when-kids-get-vaccinated).

Dane pokazujące skalę zagrożenia dużo lepiej niż zrobił TVN są łatwo dostępne. Wystarczy pokazać liczbę zakażeń i śmiertelność w długim szeregu czasowym, obejmującym także okres przed wprowadzeniem obowiązkowych szczepień. W dobrej sprawie nie trzeba kłamać. Wystarczy sięgnąć po rzetelne dane.

Bardzo dynamiczny wzrost

Poza manipulacją skalą możemy też spotkać manipulacje dynamiką wzrostu. Autorom infografiki poniżej nie wystarcza już pokazanie słupków odciętych na poziomie około 1000 zł. Nie wystarcza wzmocnienie tego zabiegu poprzez prezentowanie wzrostu składki przy pomocy pola i koloru słupka. Zasugerowali też, korzystając ze środków graficznych, geometryczny wzrost składki. Strzałka ponad wykresem pokazuje, że rośnie ona coraz szybciej. Naprawdę wygląda groźnie.

Nie chcę powiedzieć, że składki na ZUS nie rosną i nie są bardzo dużym obciążeniem dla przedsiębiorców. Jesteśmy przyzwyczajeni do tego, że politycy manipulują faktami. Jednak w tym przypadku weszli na wyżyny i zdecydowanie zasłużyli na umieszczenie tej twórczości w kolejnym wydaniu książki Huffa.

Temat rzeka: Statystyki i koronawirus. Oto kolejny przykład nierzetelnej wizualizacji wykorzystanej w telewizji (tym razem w TVP), chociaż jej autorem jest Kancelaria Premiera. Poniższy wykres ma uzasadnić decyzje rządu o zakresie ograniczeń w czasie pandemii. Po obejrzeniu wizualizacji danych pokazanej poniżej możemy nabrać przekonania, że „Polski rząd oparł swoje decyzje na badaniach amerykańskich naukowców”.

Znowu, ta manipulacja jest wielopoziomowa. Po pierwsze mamy tu skalę, która wprawdzie merytorycznie została użyta poprawnie, jednak zaryzykuję tezę, że 99,99% widzów Wiadomości TVP nie tylko nie rozumie skali logarytmicznej, ale nawet nie zauważy, że zastosowano skalę inną niż liniowa.

Najważniejsze jest jednak to, że wykres pokazuje coś zupełnie innego, niż obiecuje jego tytuł.

Wizualizacja nie dotyczy tego, że ryzyko zakażenia w hotelu jest większe niż np. w kościele, co sugeruje rządowa grafika. Wykres natomiast przedstawia liczbę dodatkowych zakażeń w przypadku zniesienia ograniczeń (na podstawie danych z USA). Oczywiście liczba bezwzględna zakażeń jest ważna, jednak nazywanie jej „ryzykiem” nie ma nic wspólnego z rzeczywistością. Ryzyko, a właściwie prawdopodobieństwo, pokazujemy za pomocą wartości z przedziału 0-1 (wyrażanej też w procentach) lub wskaźnikach liczby zdarzeń przypadającą na liczbę osób. Jeżeli w przypadku pokazania prawdopodobieństwa w USA moglibyśmy nawet próbować wnioskować, na ile konkretnie miejsce ma wpływ na prawdopodobieństwo zakażenia w Polsce, to pokazanie liczb bezwzględnych całkowicie wprowadza w błąd.

Zresztą autorzy raportu, na który powołuje się KPRM prezentują wiele infografik w rzeczywistości pokazujących ryzyko zakażenia. Z ważnych wizualizacji danych statystycznych zawartych w raporcie można dowiedzieć się nie tylko, gdzie ryzyko jest największe, ale także których grup dochodowych problem szczególnie dotyka. Po inne równie ciekawe odsyłam do źródła (https://www.nature.com/articles/s41586-020-2923-3#MOESM1)

Co jest zaskakujące?

COVID-19 powodował wysyp wizualizacji danych statystycznych, które mniej lub bardziej świadomie wprowadzały w błąd. Zjawisko zrozumiałe, skoro od 100 lat nie mieliśmy do czynienia w pandemią w podobnej skali i nie mamy doświadczeń w mierzeniu takiego zjawiska.

Może stawiam poprzeczkę za wysoko autorom wizualizacji zamieszczonej poniżej, ale Statista to wiodąca firma w obszarze zbierania przetwarzania i udostępniania danych. Niektóre dane udostępniane są bezpłatnie, co służy promocji jej usług.

Tytuł poniższego materiału może wprowadzać nas w błąd, gdyż sugeruje, że nastąpiło jakieś zaskakujące zjawisko…

Tytuł sugeruje, że nastąpiło jakieś zaskakujące zjawisko — Źródło: Statista

Co jednak widać na wykresie? Zarobki w sektorze prywatnym mają od 2017 roku trend wzrostowy i pandemia tego nie zmienia. Mamy krótkie jego zaburzenie w drugim kwartale 2020, które jednak łatwo wyjaśnić nadzwyczajnym wydarzeniem (zatrzymanie znaczącej części gospodarki).

Jednak, gdy sprawdzimy w danych historycznych, to nie ma żadnej prawidłowości dotyczącej związku recesji z poziomem wynagrodzeń. W pięciu poprzednich amerykańskich recesjach dwukrotnie wynagrodzenia pozostawały na tym samym poziomie, dwukrotnie spadły, a raz wzrosły. Nie ma zatem żadnego powodu, aby dane z 2020 roku uznać za zaskakujące, ponieważ sugerowana zależność nie istnieje.

Co innego z bezrobociem. W zdecydowanej większości przypadków po drugiej wojnie światowej recesja wiązała się z jego wzrostem. To zresztą może nas naprowadzić na trop przyczyny wzrostu przeciętnych wynagrodzeń na początku wywołanej pandemią recesji. Być może przeciętne wynagrodzenia wzrosły, bo pracę straciły głównie osoby gorzej zarabiające? Taką hipotezę mogą potwierdzać dane opublikowane przez The Rand Blog dotyczące Los Angeles.

Źródło: The Rand Blog (https://www.rand.org/blog/)

Niczego istotnego nie dowiadujemy się z wykresu udostępnionego przez Statistę, a sugerowanie na jego podstawie, że firma ma jakieś szczególne kompetencje analityczne jest nadużyciem. Zaskakujące może być jedynie to, że Statista coś takiego robi.

Fake newsy i sposoby na ich obnażenie

Wiele z przykładów, które pokazałem powyżej mogłyby być określone jako fake newsy. Stanowią one ogromny problem dla jakości debaty publicznej, wprowadzają w błąd i wpływają negatywnie na zachowania obywateli. Warto zatem wiedzieć jak zidentyfikować treści, które możemy podejrzewać o to, że są fake newsami.

Jeżeli:

nie widzimy związku między skorelowanymi zmiennymi,
na osi czasu są „dziury” dotyczące niektórych okresów,
widzimy manipulacje skalą,
całość wygląda zbyt dobrze (pasuje idealnie do tezy),
obserwacje są prezentowane jako „niezwykłe”

to w takich przypadkach warto sięgnąć do źródła danych, żeby zweryfikować takiego newsa. A jeżeli źródło nie jest podane, to spokojnie możemy założyć, że mamy do czynienia z fake newsem.

W skrócie – możemy przyjąć, że jeżeli coś kwacze jak kaczka, ma dziób jak kaczka i pływa jak kaczka, to najprawdopodobniej jest kaczką.

Zobacz także: Programy do wizualizacji danych

Błędy w wizualizacji danych: Czego jeszcze może być za dużo?

Posted on 8 marca, 202322 maja, 2023 by Anna

W poprzednim wpisie obiecywałem, że napiszę więcej o przykładach niepoprawnych wizualizacji danych. Możesz o tym poczytać w artykule Kiedy mniej znaczy więcej, czyli o błędach wizualizacji danych.

Wyzwaniem w tym temacie jest nie tyle znalezienie przykładów, co ich selekcja. W sieci możemy znaleźć kilkanaście blogów robiących zestawienia najgorszych infografik i wizualizacji danych statystycznych. Wybrałem z nich kilka kolejnych, kierując się tym, na ile pokazują one różne typy wizualizacji niepoprawnych.

Za dużo elementów

Przeładowanie może dotyczyć także elementów na wykresie (np. liczby linii na wykresie) oraz liczby ikon lub zdjęć. Tak, jak w przypadku kolorów – dodawajmy je jedynie, gdy uważamy to za niezbędne do przekazania informacji. Poniżej dwa z wielu przykładów, co się dzieje, gdy o tym nie pamiętamy:

Za dużo elementów - błędy w wizualizacji — Źródło: www.princeton.edu

Problem ten pojawia się także często w przypadku tworzenia dashboardów. Mamy skłonność do wykorzystania każdego kawałka miejsca wizualizacji. Co gorsza, uważamy, że niezapełniona powierzchnia jest błędem (graficy nawyzywają to „lękiem przed pustką”). Przykład tego, że tak nie jest możemy zobaczyć na poniższej infografice American Cancer Society. Pokazuje ona różnicę pomiędzy przeciętnym rozmiarem wykrytego guza piersi w latach 80-tych, gdy z badań mammograficznych korzystało 13% kobiet i w latach 90-tych, gdy badało się 60% kobiet. Pusta przestrzeń i jeden kolor podkreślają informację i wzmacniają jej funkcję perswazyjną.

Za dużo elementów - najczęstsze błędy podczas tworzenia wizualizacji danych — Źródło: „Information Graphics” (Taschen, 2012)

W przypadku dashboardów sytuacja jest trochę inna. Często zadanie polega na tym, żeby wnioski, indeksy czy predykcje mieściły się na jednym ekranie. Jednak, gdy będzie ich za dużo, odbiorca może się pogubić, tak, jak większość osób zgubiłaby się za kokpitem samolotu. Lepiej już opracować kilka zintegrowanych dashboardów, z przejrzystą nawigacją przełączania się między nimi lub zastanowić się, które z przedstawionych informacji nie są niezbędne dla odbiorcy.

Za dużo grafika

Wcześniejsze przykłady pokazują zagrożenia wynikające z braku kompetencji graficznych. Jednak zdarzają się też sytuacje odwrotne, w których należy powiedzieć, że przy przygotowaniu wizualizacji danych było „za dużo” ingerencji grafika!. Przygotowując infografiki musimy połączyć kompetencje analityczne i graficzne. Jednak, jak wskazuje sama nazwa „infografika”, jej podstawową funkcją jest informowanie, a grafika ma tu znaczenie użytkowe, nie artystyczne.

W pułapkę skoncentrowania się na warstwie wizualnej wpaść może zarówno grafik, który skupia się głównie na tym, żeby zrobić projekt wizualnie atrakcyjny, jak i nie-grafik, który chce ładnie zwizualizować dane. Trudno mi powiedzieć, która z sytuacja zaszła przy tworzeniu poniższej infografiki, natomiast efekt jest bardziej niż komiczny.

Za dużo grafiki podczas wizualizacji danych — Źródło: USA TODAY (za Visme.co)

Stojące na głowie słońce i termometr mówią nam, że pewnie chodzi o upały. Ale z części wizualnej odniesiemy wrażenie, że temperatury wzrosną do prawie do 120 stopni (Farenheita, bo to materiał z amerykańskiej gazety). Jednak z tekstu dowiemy się, że „temperatury mogą wzrosnąć do ponad 90, a nawet przekroczyć 100 stopni”. I że heat indeks zależy nie tylko od temperatury, ale także od wilgotności. Z grafiki dowiemy się także, że autorzy szczególnie apelują o zadbanie o zwierzęta domowe. Trochę dużo nieścisłości, jak na jeden rysunek.

Żeby nie być niesprawiedliwym pokażę też przykład, który jest nie tylko wysokiej artystycznej próby, ale również bardzo dobrze spełnia funkcję informacyjną.

Mamy tu dwie banalnie proste wizualizacje tych samych danych. Obie dotyczą liczby ofiar wojny w Iraku w ciągu pierwszych 6 lat jej trwania. Punkt reprezentuj jedną ofiarę, prawa część pokazuje ofiary na osi czasu. Kolory odznaczają typ ofiar: niebieski – żołnierzy USA, zielony: żołnierzy sojuszników, pomarańczowy – cywili, a ciemnoszary – żołnierzy przeciwnika. Informacja, dzięki prostej formie, jest bardzo przejrzysta. Jednocześnie mogłaby ona spokojnie zawisnąć w galerii i pewnie dlatego znalazła się w albumie Taschena „information Graphic”.

Infografika ta pokazuje też, jak możemy łatwo sobie poradzić z przedstawieniem większej liczby danych, które zawierają informacje o czasie wystąpienia zdarzenia. Wielokolorowa siatka jest łatwa do wygenerowania w każdym programie służącym do wizualizacji danych. Co więcej, w przypadku zmiennej ciągłej bardzo dobrze sprawdza się „mapa ciepła”, gdzie wartości w punktach czasu są reprezentowane kolorem według skali temperaturowej.

Za dużo kreatywności

Zdarzają się takie wizualizacje danych, którym pomysłowość autora odbiera sens.

Do przedstawienia procentowego rozbicia trzech zmiennych możemy wykorzystać ponad dziesięć typów wykresów. Autor infografiki poniżej wybrał jednak taki, w którym trudno doszukać się sensu. Faktycznie wykres obwarzankowy jest wizualnie atrakcyjny i stwarza możliwość podkreślenia jednej informacji wykorzystując wolną przestrzeń w środku obwarzanka (z tego zresztą powodu Qlik Sense zawiera szablon tego typu wizualizacji danych).

Jednak konia z rzędem temu, kto powie, dlaczego autor próbował zmieścić odpowiedzi na trzy pytania na jednym wykresie kołowym? Wykorzystanie trzech obwarzanków byłoby równie eleganckie wizualnie, stwarzałoby możliwość wykorzystania ikon i co najważniejsze – miałoby sens.

Za dużo kreatywności w wizualizacji danych — Źródło: Visme.co

Czasami jednak czegoś jest za mało…

I na zakończenie jeden przykład wizualizacji danych, o którym powinno się raczej powiedzieć:„Czegoś zabrakło”. A konkretnie, że zabrakło czasu. W tej kategorii błędów przodują media i poniższy przykład właśnie z medium jest zaczerpnięty.

Za dużo kreatywności - błędy w wizualizacji danych — Źródło: Vox Media (za Coolinfographics.com)

Wizualizacja przedstawia trzy zmienne dotyczące USA: wielkości donacji na organizacje pozarządowe zajmujące się różnymi chorobami i liczbę zmarłych na te choroby w rozbiciu na 10 kategorii chorób.

Ma rację Randy Krum, który infografikę pokazał na swoim blogu, że zgodnie z regułami sztuki, gdy używamy koła, to reprezentować wartości zmiennej powinno pole jego powierzchni, a nie promień. W tym przypadku powoduje to, że najniższe wartości są niemożliwe do zauważenia.

Drugą kwestią jest sortowanie danych. Zastosowany sposób wizualizacji traktuje dane jak dwie oddzielne tabele, a nie dwie kolumny jednej tabeli. Dlatego nawet przy oznaczeniu chorób kolorami, słabo widać dysproporcje tego, na kogo przekazujemy darowizny i śmiertelności choroby.

Po trzecie wreszcie, pokazanie legendy przy zastosowaniu 8 kolorów zamiast opisów obok kół zdecydowanie zmniejsza czytelność tej wizualizacji.

Trzy pierwsze błędy najprawdopodobniej wynikają z pośpiechu. Są one dość proste do wyłapania i łatwe do poprawienia. Trzeba mieć tylko na to czas. A mogłoby to wyglądać w ten sposób:

Błędy wizualizacji danych - Za dużo kreatywności — Źródło: Vox Media (za Coolinfographics.com)

Dodam, że dyskusyjna jest także sama analiza. Oczywistą intencją autora jest pokazanie, że Amerykanie dają pieniądze na leczenie chorób, które nie są „najważniejsze” z punktu widzenia zdrowia publicznego. Jednak przy takich porównaniach istotny jest także wiek umierających. Jeżeli na jedną chorobę umiera 100 osób w wieku przeciętnie 90 lat, a na drugą także 100, ale w wieku przeciętnie 40 lat, to ta druga jest dużo ważniejszym problemem z punktu zdrowia publicznego. I to jest powód, dla którego w statystykach dotyczących polityki zdrowotnej korzysta się ze wskaźnika utraconych lub zyskanych lat/miesięcy życia, a nie umieralności.

Chcę jeszcze zwrócić uwagę na jeden problem z wizualizacją danych za pomocą pola figury. Intuicja każe nam porównywać koła na podstawie średnicy, a nie pola (biolodzy ewolucyjni wyjaśniliby, dlaczego tak jest, ale nie tego dotyczy ten blog ;-)). Nie chcę napisać, że w żadnym wypadku nie możemy skorzystać z tego rodzaju wizualizacji danych. Możemy to spokojnie zrobić, gdy zależy nam najbardziej na czytelnym pokazaniu kolejności w ramach kategorii. Jednak dla purystów wizualizacyjnych dobrze byłoby wtedy pokazać skalę dla tego porównania.

Natomiast zdecydowanie odradzałbym unikać korzystania z innych kształtów niż kwadrat i koło do porównywania wielkości. W tym przypadku na pewno duża cześć oglądający wykres zinterpretuje go de facto jako słupkowy lub belkowy, pozostali natomiast nie będą wiedzieli, jak są porównanie wartości. Poniżej przykład, który został wskazany jako „the worst infographic ever”)

Częste błędy w wizualizacji danych - Za dużo kreatywności — Źródło: Do Rzeczy

Jak kłamać za pomocą statystyki?

Jak pisałem na początku – temat błędów i pomyłek w przygotowywaniu wykresów i wizualizacji danych statystycznych można byłoby ciągnąć jeszcze bardzo długo. Jednak następnym razem pokażę kilka przykładów wizualizacji, które mogłyby znaleźć się w klasyczniej publikacji „How to lie with statistics?”. Intencjonalne wprowadzanie w błąd jest częstą praktyką polityków i mediów, a w czasie panoszących się fake newsów warto poświęcić temu tematowi trochę uwagi.

W tekście korzystałem z publikacji na blogach i stronach: Collinfographics.com, Smarter Poland, www.princeton.edu, Visme.co, Ben Stanley oraz albumu „Information Grapnics” (Taschen, 2012).

Rafał Szymczak, zajmuje się analizą i wizualizacją danych, prowadzi szkolenia i warsztaty na ten temat, autor bloga opowiadane.com.pl

Kiedy mniej znaczy więcej, czyli o błędach wizualizacji danych

Posted on 16 lutego, 202311 kwietnia, 2023 by Anna

Żeby korzystać z Qlik Sense dobrze jest mieć wysokie kompetencje dotyczące statystyki, analityki biznesowej, uczenia maszynowego i deep learning. Czasem jednak musimy także opowiedzieć o wynikach naszej pracy osobom, które kompetencje te mają rozwinięte w mniejszym stopniu.

Im bardziej zaawansowane jest narzędzie analizy danych, a taki jest Qlik Sense, tym ten problem staje się istotniejszy. Na szczęście Qlik Sense ma w wysokim stopniu rozwinięte funkcjonalności umożliwiające efektywne komunikowanie, w szczególności wizualną prezentację danych. Trudno jednak oczekiwać, aby osoby, których główną kompetencją jest analiza danych, były również ekspertami w dziedzinie ich wizualizacji. Warto byłoby zatem wiedzieć jak unikać, często prostych błędów przy tworzeniu wykresów.

Gdy spotykam się na warsztatach lub szkoleniach z osobami, przed którymi staje to wyzwanie, zaczynam od jednego zdania: „Pamiętaj: mniej, znaczy więcej”. Przeważnie jednak uczestnicy oczekują czegoś więcej niż jednozdaniowej rekomendacji. Swoją opowieść o tym, co to znaczy, zaczynam od przeglądu częstych błędów i pomyłek, powiedzenia co konkretnie oznacza „za dużo” przy wizualizacji danych. Lepiej uczyć się na błędach cudzych niż własnych.

Jakie mamy zatem rodzaje tego „za dużo”?

Najczęstsze błędy wizualizacji danych

#1 Za dużo użytych metod wizualizacji

Wykres poniżej został zaczerpnięty z prezentacji na blogu poważnej instytucji publicznej. Cała, dość długa prezentacja, jest przygotowana komunikacyjnie poprawnie. Jednak przestawienie informacji na wykresie słupkowym, gdzie wysokością oznaczone są wartości w poszczególnych kategoriach, natomiast jedna wartość jest wyróżniona jednocześnie kolorem i polem (!), musi powodować konfuzję. Czy w Polsce cena 1 MHz per capita należy do wysokich czy niskich? W pierwszej chwili możemy mieć wątpliwości, ponieważ polski słupek pod względem wysokości na wykresie plasuje się na 4-5 miejscu w UE, chociaż w rzeczywistości jesteśmy poniżej średniej.

Błędy wizualizacji danych: za dużo użytych metod wizualizacji — *Źródło: Blog Urzędu Komunikacji Elektronicznej.*

Tymczasem sam kolor, przy tym dość prostym wykresie, byłby zupełnie wystarczającym sposobem wyróżnienia wybranej wielkości. Dodam tylko, że posługiwanie się polem powierzchni jako sposobem wizualizacji wartości jest dość ryzykowne, ale o tym innym razem.

Warto zatem pamiętać, że za dużo metod przedstawienia tej samej informacji użytych na jednym wykresie może prowadzić do skutków odwrotnych od zamierzonego.

Zobacz także: Programy do wizualizacji danych

#2 Za dużo kompetencji

Przede wszystkim chodzi tu o wykorzystywanie nieintuicyjnych sposobów wizualizacji danych. Przodują w tym uczeni, przyzwyczajeni do prezentowania danych w publikacjach naukowych, ale często zdarza się to także analitykom biznesowym. To, co w tekście naukowym jest uzasadnione, w materiale dla szerszej publiczności będzie całkowicie niezrozumiałe.

Czytelnicy czasopisma naukowego wiedzą na przykład, jak interpretować wykres skrzynkowy i rozumieją, co to jest odchylenie standardowe. Jednak większość osób, nawet z wyższym wykształceniem, nie tylko nie jest w stanie podać matematycznej definicji odchylenia standardowego, ale nie potrafi też zinterpretować jego znaczenia, choćby własnymi słowami. A raport, z którego wykres statystyczny zaczerpnąłem był adresowany do nauczycieli, decydentów (polityków) i rodziców.

Poniższa wizualizacja danych jest przykładem takiego błędu. Miała ona pokazywać różnicę wieku respondentów (uczniów) w dwóch pomiarach kompetencji, nomen omen, matematycznych uczniów (TIMSS). Jednak, żeby wiedzieć jak zinterpretować gęstość prawdopodobieństwa, potrzeba kompetencji statystycznych przekraczających poziom maturalny. Zatem będąc rodzicem pozostaje mi jedynie wierzyć na słowo autorom. Zamiast wykresu mogli spokojnie napisać „wierzcie nam, że tak jest”.

Błędy wizualizacji danych: za dużo kompetencji — *Źródło: Raport krajowy z międzynarodowego badania TIMSS 2019, Instytut Badań Edukacyjnych 2019*

W przypadku tej wizualizacji widzimy więcej poważnych błędów. Żeby je wyjaśnić muszę przez chwilę użyć języka, z którym nie-matematycy mogą czuć się niekomfortowo. Zatem proponuję uwierzyć mi, że tak jest i przejść do kolejnego przykładu.

Zacznijmy od źle dobranego wykresu. Funkcja gęstości prawdopodobieństwa jest wykorzystywana przede wszystkim do scharakteryzowania prawdopodobieństwa zmiennej ciągłej. Jednak „wiek” na pewno taką zmienną nie jest (nawet jeżeli zamiast dla lat chcemy jej wartość pokazać dla dni urodzenia).

W analizach zmiennej ciągłej posługujemy się funkcją, której dziedziną jest zbiór o nieskończonej liczbie elementów, a dla obliczenia prawdopodobieństwa – całką tej funkcji (humaniści, proszę nie mówić, że nie ostrzegałem). Jeżeli natomiast chcemy pokazywać gęstość prawdopodobieństwa zmiennej dyskretnej (lub dla przedziałów zmiennej ciągłej), to nie posługujemy się wykresem liniowym, lecz słupkowym (histogramem).

Wreszcie błąd dotyczący merytorycznego sensu używania gęstości prawdopodobieństwa w tym przypadku. Autorom chodziło o to, że w obu edycjach badania próby, na których je przeprowadzono różniły się wiekiem badanych, ponieważ w Polsce zmienił się wiek rozpoczęcia edukacji. Nie trzeba pokazywać skali tego zjawiska, tylko napisać, że na ich podstawie można wnioskować bardziej o zmianie jakości edukacji matematycznej, a nie o wpływie czynników społecznych i kulturowych.

Wszystko to każe podejrzewać, że autorem tego wykresu była osoba, która bardziej aspiruje do bycia naukowcem, niż jest nim w rzeczywistości. Chociaż znowu – cały raport jest ważny merytorycznie, ciekawy i profesjonalnie opracowany, a przywołany przykład traktowałbym jako kleks na eleganckim garniturze lub garsonce.

#3 Za dużo medialności

Możemy znaleźć dziesiątki sytuacji, gdy media prezentują dane dobrane “pod” przyjęte z góry tezy. Poniższy przykład jest jednak interesujący dlatego, że autorem tej wizualizacji danych jest NIK a wizualizacja powstała w oparciu o dane statystyczne Policji. Są to instytucje, które powinny podchodzić do prezentowania danych szczególnie uważnie. Wykres pochodzi z alarmistycznego raportu na temat porażki Narodowego Programu Zdrowia Psychicznego, a zaprezentowane dane wydają się potwierdzać taką tezę.

Błędy wizualizacji danych: za dużo medialności — *Źródło: REALIZACJA ZADAŃ NARODOWEGO PROGRAMU OCHRONY ZDROWIA PSYCHICZNEGO, NIK 2016.*

Dane te mogą budzić wątpliwości, ponieważ byłby to najwyższy roczny wzrost liczby samobójstw od II wojny światowej (wyższy od rekordowego pod tym względem 1976 roku).

Wątpliwości wzrastają, gdy sprawdzimy, że takiej dynamiki nie potwierdzają statystyki GUS dotyczące tego samego zjawiska. Przyczyna jest prosta i widać ją zresztą w samych danych policyjnych. W 2013 roku Policja zmieniła metodologię i zaczęła do liczby raportowanych samobójstw zaliczać także te zgony, których przyczyny były nieznane (sic!). W efekcie liczby samobójstw raportowanych przez GUS i Policję przestały się różnić.

Błędy podczas tworzenia wykresów: za dużo medialności — *Źródło: Liczba samobójstw, opracowanie własne na podstawie danych GUS i Komendy Głównej Policji.*

NIK posługując się danymi Policji porównał gruszki z jabłkami (liczbę wszystkich samobójstw i samobójstw, których przyczyna jest nieznana). Jednak raport był powszechnie cytowany, a dane przyjmowane jako dowód przedstawionej tezy.

Polecamy do czytania: Analityka biznesowa – co to jest i jakie są jej rodzaje?

#5 Za dużo kolorów

Zdarza się, że autor chce równocześnie podkreślić wiele informacji i stara się każdą z nich wyróżnić innym kolorem. Albo po prostu bez zastanowienia wybiera opcję wielokolorową wykresu statystycznego. Jednak użycie więcej niż 3-4 kolorów nie pozostawia szans, aby odbiorca zorientował się, co według autora wizualizacji jest ważne. Będzie miał wrażenie kakofonii i niewiele zrozumie, co wynika z danych.

Błędy wizualizacji danych: za dużo kolorów — *Źródło: Visme.co/blog.*

Powyższy przykład pokazuje praktycznie wszystko, co można zrobić źle w wykresie słupkowym. Użycie 17 (!) kolorów nie wyróżnia informacji, a zaciemnia obraz. Nie ma żadnego powodu, żeby na wykresie nie użyć jednego koloru. Pod warunkiem, że nie będzie się kategorii sortowało alfabetycznie, tylko według wartości. I oczywiście, że będą one opisane. Wprawdzie po liczbie kategorii możemy się zorientować, że być może chodzi o polskie regiony NUTS 2, jednak nieopisanie wykresu skazuje nas na domysły.

Wracając do liczby kolorów – dobrą praktyką jest zaczynanie projektowania wykresu statystycznego od dwóch kolorów. Kolejne kolory należy dodawać dopiero wtedy, gdy pojawia się konieczność wyróżnienia jakiejś wartości lub obszaru wykresu (np. prognozy). A jak już jesteśmy przy kolorach, to zwrócę uwagę, że 7-10 proc. ludzkości jest dotknięta daltonizmem. Dotyczy to prawie wyłącznie mężczyzn, szczególnie tych z krajów Północy. Co w oczywisty sposób oznacza, że lepiej w wizualizacji danych nie wykorzystywać zestawienia kolorów czerwony-zielony.

#6 Za dużo uproszczeń

Kontynuując wątek kolorów – często zapominamy, że dobrym rozwiązaniem może być zastosowanie kolorów skali monochromatycznej (stopnia nasycenia jednym kolorem), szczególnie w przypadku mniejszej liczby kategorii użytych w wizualizacji. Chociaż tu też można wpaść w pułapkę, co widać poniżej, gdzie intensywnością koloru została zwizualizowana wartość zmiennej (śmiertelności COVID-19) dla kilkunastu przedziałów wieku.

Błędy wizualizacji danych: za dużo uproszczeń — *Źródło: „Zrozumieć COVID- 19”, PAN, 2020.*

Autorzy na jednym wykresie próbowali przedstawić trzy zmienne (płeć oraz odsetek osób i ryzyko śmierci w kohortach wiekowych), jednak zrobili to w dość nieszczęśliwy sposób. Ryzyko śmierci, które wydaje się najbardziej interesujące w publikacji „Zrozumieć COVID-19”, jest przedstawione w sposób najmniej czytelny. Nie dość, że kategorii jest kilkanaście, to nie znajdziemy nigdzie skali, ani opisów, które pozwolą nam na odczytanie wartości.

Pokazuje to kolejny rodzaj błędu przy wizualizacji danych statystycznych, czyli „za dużo uproszczeń”. Chcemy równocześnie przekazać wiele informacji, ale staramy się maksymalnie uprościć wizualizację, aby także nieprofesjonaliści nas zrozumieli. Lepiej w takiej sytuacji zrobić dwa wykresy niż próbować wszystko upchnąć na jednym.

Sytuacja jest nieco zawstydzająca, ponieważ wykres pochodzi z publikacji PAN autorstwa wybitnych uczonych, również socjologów, statystyków i matematyków. Znowu, raport jest ważny i ciekawy, a prosty błąd autorom nie przystoi.

Zamiast podsumowania

Im bardziej zaawansowane, stwarzające większe możliwości wizualizacji i wygodnie w korzystaniu jest narzędzie, tym paradoksalnie większe jest ryzyko popełniania błędów. Ponieważ Qlik Sense cechy te posiada, to warto, żeby jego użytkownicy mieli świadomość czyhających zagrożeń. Dlatego odsyłam także do artykułu: 10 częstych błędów w analizie danych. Sam obiecuję, że o kolejnych przykładach błędnych wizualizacji danych napiszę następnym razem.

W tekście korzystałem z publikacji na blogach „Smarter Poland”, Visme.co i dziennika the Guardian.

Rafał Szymczak, zajmuje się analizą i wizualizacją danych, prowadzi szkolenia i warsztaty na ten temat, autor bloga opowiadane.com.pl

Business Intelligence a raportowanie – od czego uzależnić wybór rozwiązań?

Posted on 29 grudnia, 2022 by Anna

W kierowaniu przedsiębiorstwem kluczową rolę odgrywa dostęp do sprawdzonych i kompletnych informacji. Niekiedy do podejmowania decyzji wystarczą podstawowe funkcjonalności raportowe, dostępne w użytkowanych przez firmę systemach informatycznych i aplikacjach. Często jednak organizacje mają większy apetyt na analitykę biznesową i wdrażają dodatkowe rozwiązania Business Intelligence (BI). Od czego zatem zależy wybór narzędzi do analiz biznesowych i kiedy sięgać po BI?

Każdy, kto chce podjąć słuszną decyzję, oczekuje wglądu w informacje, które pozwolą ocenić sytuację, rozpoznać dostępne opcje i przewidzieć konsekwencje ewentualnego wyboru. Nie inaczej jest w przedsiębiorstwach, gdzie na co dzień zapadają różnego rodzaju decyzje – od operacyjnych związanych z bieżącą działalnością, po te kluczowe o strategicznym znaczeniu.

Odkąd zdecydowana większość procesów biznesowych została w pełni zinformatyzowana, obraz sytuacji w organizacjach tworzony jest w oparciu o dane przetwarzane przez użytkowane w firmach oprogramowanie. Choć informacje publikowane w różnych raportach z rynku IT nie są precyzyjne, wszystkie zgodnie ukazują wyraźny trend. W ostatnich latach systematycznie rosła liczba systemów i aplikacji użytkowanych przez organizacje. Statystyki wskazują, że duże firmy użytkują od kilkudziesięciu do ponad stu różnych rozwiązań informatycznych. Część z nich działa w modelu on-premise (jako oprogramowanie instalowane w siedzibie firmy), natomiast coraz większy udział mają aplikacje z chmury lub rozwiązania działające w modelach hybrydowych. Jeśli weźmiemy pod uwagę, że duża lub średniej wielkości firma używa jednocześnie kilkadziesiąt różnych aplikacji i systemów, łatwiej zrozumiemy, dlaczego tak ważne staje się zarządzanie informacją.

Duża liczba systemów może utrudniać zarządzanie informacją

Zdecydowana większość informatycznych rozwiązań biznesowych oferuje własne raporty, które mniej lub bardziej chętnie są wykorzystywane przez użytkowników. Trzeba jednak podkreślić tu jedną istotną kwestię. Dedykowane rozwiązania koncentrują się na obsłudze wybranego wycinka ogólnej działalności organizacji, którym najczęściej jest określony proces lub grupa procesów biznesowych. W związku z tym wbudowane w danej aplikacji raporty z reguły odnoszą się tylko do tego jednego obszaru. Dla pracowników zaangażowanych w dany wycinek działalności raporty generowane przez tę aplikację mogą okazać się wystarczające i pomocne do utrzymania wysokiej efektywności w pracy. Dla pozostałych pracowników, którzy nie są użytkownikami tej aplikacji, ponieważ angażują się w inne działania, a którzy czasem potrzebują informacji z takiego rozwiązania, pojawiają się jednak ograniczenia. Po pierwsze mają oni utrudnioną dostępność do aplikacji. Po drugie pojawia się problem czasu, który jest potrzebny na uzyskanie wymaganej informacji. Jakie są tego konsekwencje?

Organizacja może używać wielu optymalnie dobranych pod kątem określonych działań aplikacji, natomiast patrząc z perspektywy wyższych szczebli hierarchii firmy, bez właściwego zarządzania wiedzą całkowita wartość użytkowa oprogramowania maleje. Dzieje się tak dlatego, ponieważ decydenci odpowiedzialni za wytyczanie strategii i podejmowanie decyzji nie mają ułatwionego dostępu do zintegrowanej informacji przetwarzanej w dziesiątkach rozwiązań. Bez integracji rozproszonych danych organizacje borykają się z szeregiem problemów, które mają swoje źródło w braku przepływu informacji między systemami. W konsekwencji zaburzona zostaje komunikacja pomiędzy działami firmy (komunikacja horyzontalna) oraz pomiędzy pracownikami operacyjnymi, a kierownictwem i zarządem (komunikacja wertykalna).

Wydobyć informacje z rozproszonych systemów i aplikacji

Stara szkoła w integracji rozwiązań bazowała na dwóch podejściach. Pierwszym z nich było modyfikowanie kodu systemów w sposób, który pozwoliłby na swobodną wymianę danych między nimi. Podejście to w zmienionej formie stosowane jest również dziś, z tym że obecnie nie modyfikuje się kodu oprogramowania, a wykorzystuje wbudowane w systemy API (rodzaj interfejsu dla osób odpowiedzialnych za integrację), które pozwala w łatwy sposób skomunikować ze sobą systemy. Zanim jednak koncepcja API rozwinęła się na dobre, organizacje przeznaczały pokaźne kwoty na integrację, ponieważ do modyfikowania kodu niezbędni byli informatycy. Drugim podejściem było wykorzystywanie arkuszy kalkulacyjnych, które z jednej strony służyły do gromadzenia wymaganych danych, a z drugiej strony do generowania zestawień i raportów, z których mogli skorzystać decydenci.

Warto wspomnieć, że jeszcze w pierwszych latach tego wieku największe w Polsce banki do procesów planowania i budżetowania wykorzystywały przede wszystkim arkusze kalkulacyjne. Nie było wówczas mowy o automatycznym konsolidowaniu danych z wielu źródeł. W powstawanie tych rozbudowanych arkuszy zaangażowane były rzesze analityków, a jednym z największych problemów był liczony w tygodniach czas powstawania raportów. Managerowie otrzymywali zestawienia oparte na danych, które często były już nieaktualne, a ponieważ praca z arkuszami była karkołomna i wymagała ręcznej obsługi narzędzia, nigdy nie było pewności, czy w zestawieniach nie ma błędów. Przygotowanie tego rodzaju raportów i zestawień pociągało za sobą znaczne koszty operacyjne i budziło frustrację nie tylko samych analityków, ale przede wszystkim zarządów, podejmujących strategiczne decyzje dotyczące przyszłości banków. Takie przykłady „karkołomnej integracji” można mnożyć i oczywiście dotyczą one nie tylko planowania finansowego, ale wszystkich ważnych obszarów działalności – choćby styku sprzedaży, produkcji i logistyki lub współpracy marketingu, sprzedaży i działu obsługi klienta. Oczywiście dziś wciąż działają firmy, których model przetwarzania danych opiera się na Excelu. Do pewnego momentu rozwoju organizacji to narzędzie analityczne sprawdza się świetnie, natomiast po przekroczeniu tego progu korzystanie z niego powoduje, że firmie grozi ryzyko osłabienia pozycji konkurencyjnej – rywalizację wygrywają gracze, którzy sprawniej zarządzają wiedzą i potrafią na tym polu redukować koszty.

Business Intelligence integruje dane na użytek zaawansowanych i elastycznych analiz

Dziś do integracji systemów wykorzystuje się całą gamę narzędzi i platform dobieranych zależnie od wymagań decydentów. Coraz częściej jednak organizacje nie mają potrzeby łączenia ze sobą aplikacji, a jedynie gromadzenia w scentralizowanym miejscu przetwarzanych przez nie danych. Taką funkcję pełni między innymi system klasy Business Intelligence (BI), który do wygenerowania analiz pobiera z różnych źródeł niezbędne dane.

Zadaniem BI jest dostarczanie użytkownikom wymaganej przez nich wiedzy w wygodny i użyteczny sposób, oczywiście możliwie szybko i rzetelnie, czyli w oparciu o dane rzeczywiste. Systemy klasy BI nabierają szczególnego znaczenia w następujących uwarunkowaniach:

organizacja wykorzystuje różne rodzaje oprogramowania, często działają one niezależne od siebie, ale przetwarzane przez nie informacje (cząstkowe) mają istotny wkład w budowanie wiedzy potrzebnej decydentom (ogólne spojrzenie na firmę);
managerom zależy na analizowaniu sytuacji przedsiębiorstwa w różny sposób; chcą oni mieć sporą elastyczność w podejściu do dostępnych w organizacji danych, dobierać wymiary i kategorie danych, tak aby móc patrzeć holistycznie na organizację z różnych perspektyw, wychodząc od różnego rodzaju zapytań;
managerowie chcą w sposób elastyczny i interaktywny eksplorować otrzymywane wyniki analiz – rozumieć przyczyny zjawisk, wgłębiać się w detale (stosować metodę analiz drill down), czy modyfikować raporty w zależności od modyfikacji wybranych zmiennych. Zależy im też na personalizowaniu raportów i łatwym zarządzaniu wizualizacją danych;
w organizacjach stosunkowo trudno jest przygotować potrzebne raporty czy analizy w oparciu o użytkowane rozwiązania i dostępne zasoby osobowe – jest to uciążliwe lub obarczone sporym marginesem błędu;
managerowie chcą dysponować narzędziem do prognozowania przyszłości – nie tylko zjawisk, ale również scenariuszy, które mogą się zrealizować zależnie od podjętych decyzji;
decydentom zależy na narzędziu, które w oparciu o rozproszone źródła informacji może wizualizować dane, wskazywać źródła ryzyka włącznie z wysyłaniem powiadomień o fakcie ich wystąpienia oraz dawać przesłanki, na podstawie których w organizacji można doskonalić poszczególne procesy biznesowe lub koncentrować się na poprawie wybranych wskaźników biznesowych;
analizy biznesowe mają być dostępne na dowolnym urządzeniu i w dowolnym czasie i mają bazować na danych przetwarzanych w czasie rzeczywistym.

W zasadzie każdy z powyższych punktów jest wystarczającą przesłanką do wdrożenia w firmie systemu BI.

5 cech wyróżniających dobry system Business Intelligence

Patrząc na Qlik Sense, który według Gartnera jest liderem wśród światowych rozwiązań BI, kluczowe cechy dobrego systemu do analityki biznesowej to:

możliwość eksplorowania danych z wielu rozproszonych źródeł wraz z badaniem wszystkich relacji pomiędzy nimi – pozwala prowadzić w sposób elastyczny wszechstronne analizy;
wsparcie mobilności – dostępność analiz w czasie rzeczywistym opartych na aktualnych danych na dowolnym urządzeniu mobilnym;
interaktywność, wizualizacja danych i personalizacja – analizy są tym bardziej użyteczne, im bardziej sposób ich prezentacji jest dopasowany do indywidualnych wymagań i zapytań użytkowników;
wsparcie analiz sztuczną inteligencją, dzięki czemu użytkownicy mogą dodatkowo pogłębiać lub modyfikować analizy;
możliwość skalowania systemu wraz z rozwojem organizacji i ewolucją potrzeb użytkowników oraz możliwość adaptacji rozwiązania przez inne systemy informatyczne.

Jednym ze skutków transformacji cyfrowej jest ciągły wzrost ilości danych przetwarzanych przez biznesowe rozwiązania informatyczne. Ponieważ w podejmowaniu decyzji liczą się przede wszystkim czas i klarowne informacje, coraz większym wyzwaniem, przed jakim stoją firmy, jest efektywne selekcjonowanie danych, które mogą mieć wpływ na podejmowanie decyzji. Stąd tak duże zainteresowanie systemami BI – według prognoz rynek analityki biznesowej w ciągu najbliższej dekady ma się podwoić.