Co ma wspólnego No-code z Data Science?

Trochę w cieniu dzisiejszego szumu wokół sztucznej inteligencji rozwija się rynek rozwiązań low-code i no-code (LCNC), czyli mówiąc po polsku, programowania przez nie-programistów.

Dlaczego? Są ku temu co najmniej trzy dobre powody. Po pierwsze, praca programistów staje się coraz trudniej dostępna, a zatem droższa. Kształcenie nie nadąża za popytem, ponieważ nabycie potrzebnych kompetencji wymaga nie tylko kilkumiesięcznego kursu Pythona, C++, Rubby czy JavaScript, lecz dobrego systemu edukacji od poziomu szkoły podstawowej do matury. Po drugie, biznes musi sprawnie reagować na szybko zmieniające się potrzeby, a rozwiązania IT muszą być coraz bardziej elastyczne i dotychczasowy model tworzenia rozwiązań informatycznych jest zbyt wolny. Po trzecie wreszcie, „teraz już można”. Używając najprostszego przykładu – nie od dzisiaj tworzenie strony www z pomocą programisty jest marnotrawstwem pieniędzy. Aplikacji do ich tworzenia, bez potrzeby napisania linijki kodu, znajdziemy dziesiątki. Dużo ważniejsze niż umiejętności programistyczne stały się kompetencje z obszaru UX, SEO i projektowania graficznego.

Low code, no code – potężny i dynamicznie rosnący nurt w IT

Obecnie w modelu LCNC tworzy się aplikacje mobilne, rozwiązania CRM, e-commerce, Machine Learning (ML), Internet of Things (IoT). W tradycyjnym modelu tworzenia produktów IT niezbędne jest porozumienie się pomiędzy właścicielem procesu w organizacji, który z rozwiązania będzie korzystał, a developerem, który je tworzy. To nie zawsze jest proste, zabiera czas i kosztuje, LCNC likwiduje ten problem.

Citizen Developers rosną w siłę

Programowanie przez nie-programistów staje się powszechne w biznesie (bardziej na świecie niż w Polsce). Tacy nie-programiści mają już swoją nazwę: Citizen Developers. Różne ośrodki analityczne szacują globalną wartość rozwiązań LCNC na koniec 2028 roku na blisko 100 mld USD, a CAGR na tym rynku na ok. 30%.

Citizen Developers
źródło: www.databridgemarketresearch.com

Citizens Data Developers? Czy Big Data także ulega temu uproszczeniu?

Dlaczego piszę o tym na blogu dotyczącym biznesowej analityki danych i korzystania z Qlik Sense? Ponieważ podobne podejście jest potrzebne w Data Science i analityce biznesowej. Podobne są powody, dla których takie łączenie roli konsumenta i producenta jest uzasadnione.

Na marginesie można zauważyć, że sięgając do zamierzchłej historii LCNC spotkamy tam arkusze kalkulacyjne z przełomu XX i XXI wieku, które umożliwiały analizę danych bez znajomości języków programowania.

Nowoczesne narzędzia do analizy danych łączą już w sobie wiele kompetencji

Te same arkusze tkwią u źródeł wszystkich dzisiejszych narzędzi przeznaczonych do analizy danych. W każdym wymiarze potrzebnym w dzisiejszej analityce danych – od czyszczenia i integracji danych, przez ich analizę, predykcje i ML do wizualizacji –aplikacje, z których korzystamy dzisiaj są wielokrotnie bardziej efektywne niż ich pradziadkowie. Jednak założenie, że kompetencje programistyczne nie są niezbędne do korzystania z narzędzi analitycznych pozostało niezmienne.

Qlik Sense i jego nowe, funkcjonalne odsłony

Qlik Sense jako lider rynku ma w tej sprawie bardzo dużo do powiedzenia, a żeby tak było, dokonał w ostatnich latach poważnych inwestycji w rozwój produktu. Używając go możemy podłączać dane bez tworzenia własnych API, a integrować je bez posługiwania się SQL. Nie ma też potrzeby stania się specjalistą Machine Learning do opracowania trafnej predykcji i kończenia studiów artystycznych, aby przygotować komunikatywną wizualizację danych statystycznych. Dzisiaj bardzo zaawansowane analizy i predykcje oparte o ML mogą przygotować nie tylko osoby, które ukończyły studia z obszaru Data Science, ale także nieprofesjonaliści, za to znający dobrze swój biznes.

Co jeszcze umożliwia Qlik Sense SaaS AutoML?

Gdy chcemy przygotować predykcję dotyczącą zachowań naszych klientów na podstawie masowego zbioru danych historycznych, nie musimy wiedzieć na czym polegają i czym różnią się algorytm Random Forest i regresji Lasso (ja na przykład nie wiem).  Qlik Sense SaaS AutoML zaproponuje nam nie tylko optymalny model. Możemy też łatwo zobaczyć zmienne, na których Auto ML opiera swoją predykcję i jeżeli jednak uważamy, że jakieś z nich w tej analizie nie mają sensu, to łatwo wyłączymy ich wpływ.

Qlik Sense SaaS AutoML
Proces przygotowania predykcji za pomocą AutoML (źródło: qlik.com)

Żadnego kodowania w Pythonie, żadnych studiów Data Science, żadnej algebry liniowej. Dla osób mających doświadczenie z Qlik Sense powinno wystarczyć obejrzenie 30 minutowego filmu edukacyjnego. Trudno znaleźć lepszy przykład podejścia Low Code – No Code w analizie biznesowej.

Z Qlik Application Automation zintegrujesz dane z wielu popularnych aplikacji

Warto także zwrócić uwagę na funkcjonalność umożliwiającą użytkownikom automatyzację aplikacji (Qlik Application Automation) i dynamiczne łączenie Qlik Sense z zewnętrznymi aplikacjami SaaS. Mówiąc bardziej po polsku – jeżeli chcemy, żeby pod określonym warunkiem Qlik Sense wywołał działanie innej aplikacji, z której korzystamy (wysłał informację, zaktualizował treść strony www), możemy to w prosty sposób osiągnąć. Nie mając żadnej wiedzy na temat tego, co to jest API i nie pisząc ani jednej linijki kodu, zrobimy to za pomocą wizualnego interfejsu użytkownika – korzystając z dostępnych szablonów. Takie konektory może zbudować dla 31 aplikacji SaaS, takich jak DropBox, MS Teams, Slack, Mailchimp, Slesforce, MS Excell, Google Sheets, czy HubSpot.

Kiedy korzystać z uproszczeń, a kiedy postawić na w pełni profesjonalne rozwiązania?

Dzisiaj, gdy w firmie trzeba przygotować aplikację służącą do analityki biznesowej, robią to developerzy i analitycy specjalizujący się przede wszystkim w takich zadaniach. Czy warto to zmieniać? Jak w większości zastosowań LCNC, to zależy. Gdy tworzymy rozwiązanie, które ma być używanie w horyzoncie wieloletnim i stanowi element zarządzania kluczowymi procesami firmy, to raczej nie. Jednak przy robieniu prostszych analiz ad hoc albo wąskiego zastosowania, nie ma takiej potrzeby. Co więcej, do przygotowania trafnej predykcji zdarzeń biznesowych coraz częściej zamiast algebry liniowej i statystyki potrzebujemy znajomości własnego biznesu.

Wracając do znaczenia „obywatelskich deweloperów” w firmie, szybki rozwój rozwiązań AI powoduje gwałtowne zmniejszenie bariery kompetencyjnej przy korzystaniu z narzędzi cyfrowych. Coraz częściej ważniejsze jest wiedzieć, co chcemy osiągnąć, a niekoniecznie jak to zrobić, bo w tym drugim pomoże nam maszyna.  Citizens Data Science wywodzi się wprost z Citizens Science, czyli uprawiania nauki we współpracy naukowców z nie-naukowcami.
W ten sposób był realizowany np. projekt poszukiwania obcych cywilizacji SETI@Home i dziesiątki innych. Są to znaczące badania naukowe, w których zwykli obywatele stają się badaczami w ramach przedsięwzięcia zaprojektowanego przez akademików. I tak samo warto patrzeć na „obywatelskich analityków danych” w firmach – jak na osoby, które nie tylko korzystają, ale też współtworzą wiedzę opartą na danych.

Praktycy w procesie: interesariusze danych zaangażowani w tworzenie analiz

Podobnie jak przy tworzeniu innych rozwiązań IT, barierą dla rozwoju Data Science są zasoby ludzkie. Możemy je zwiększać włączając w proces tworzenia analiz osoby, które potem z tych analiz korzystają. Przecież każdy manager na „swoje” potrzeby przygotowuje analizy danych i monitoruje KPI, a możliwość zrobienia tego dokładniej i szybciej powinna być dla niego atrakcyjna. W teorii brzmi to pięknie, w praktyce przeważnie jednak przegrywa z business as usual. Wystarczy sprawdzić, ilu jest w naszej organizacji managerów różnego szczebla, którzy do analizy, raportowania i prezentacji danych używają modelu xlc+ppt, bo „zawsze tak robili”.

Zarządzanie zmianą jest tematem zdecydowanie przekraczającym tematykę tego materiału, zatem nie będę udzielał rad, jak z tym business as usual walczyć. Zaryzykuję jednak tezę, że w każdej organizacji są osoby, które z podobnych jak w nauce obywatelskiej powodów (ciekawości, niezrealizowanych ambicji, chęci rozwoju), są w stanie zaangażować się w Citizens Data Science. Szczególnie jeżeli zobaczą, że nie jest to wiedza tajemna, a korzyści z niej płynące w pracy są duże.

Dla osób zajmujących się w firmach analizą danych korzyść będzie dokładnie taka sama, jak w przypadku projektu SETI dla naukowców. Z danych, którymi dysponują można i należy wyciągać wartościowe wnioski, a najszybciej zrobimy to korzystając z podejścia Citizens Data Science.

Czy dane mogą być demokratyczne? W czym może pomóc demokratyzacja danych?

Data is the Power. Można nawet zaryzykować tezę, że dostęp do danych i umiejętność wyciągania z nich trafnych wniosków decyduje dzisiaj o pozycji ekonomicznej i społecznej człowieka. Na szczęście nie jest to blog dotyczący zmian społecznych, więc pozwolę sobie tej kwestii nie rozwijać.

Informacja jako narzędzie wpływu

Fundamentalne znaczenie informacji nie jest żadnym nowym odkryciem. Można chociażby sięgnąć do historii Europy w XVII wieku. Gdy zorientowano się, że informacje mają znaczenie dla szerszej publiczności, powstały gazety. Wprawdzie dostęp do nich był ograniczony jedynie do tych, którzy potrafili czytać i dopiero 300 lat później, gdy edukacja stała się powszechna, wolne media stały się źródłem dostępnym dla większości, a informacja została zdemokratyzowana.

W podobnym miejscu jesteśmy dzisiaj. Rewolucja cyfrowa spowodowała nie tylko wykładniczy wzrost wolumenu dostępnych danych, szacowanego dzisiaj na 64 ZetaBajty (64*10^21). Przewagi wynikające z posiadania danych i ich przetwarzania mają nieporównywalnie większe znaczenie, niż miały informacje z kilkunastu państw europejskich dla kupców z Wolfenbüttel (gdzie powstała pierwsza w historii gazeta).

Informacja jako narzędzie wpływu
Wielkość i struktura danych zgromadzonych w systemach teleinformatycznych Źródło: Raconteur (za rivery.io/blog)

Dostępność wielkich wolumenów danych spowodowała rosnącą przewagę konkurencyjną tych, którzy je posiadają i potrafią wyciągać z nich wnioski. Qlik Sense jest dla takich zadań trudnym do przecenienia narzędziem, przede wszystkim ze względu na swoją efektywność w przetwarzaniu dużych zbiorów oraz rozbudowane funkcjonalności Machine Learning.

Demokratyzacja danych – co to takiego?

Demokratyzacja danych dotyczy zwiększania dostępności danych i ułatwień w korzystaniu z nich przez szersze grono Użytkowników, a nie tylko decydentów i osoby zarządzające. Skoro jednak data is the power, to dlaczego biznes miałby chcieć udostępniać to, co decyduje o jego przewadze nad konkurencją? Dzisiejsza gospodarka ma niewiele wspólnego z XIX wiecznym kapitalizmem i to wiedza jest obecnie najważniejszym kapitałem. Wprawdzie Polska bardziej ma ambicje, aby jej gospodarka była oparta na wiedzy, niż cel ten realizuje. Jednak i u nas rośnie liczba innowacyjnych firm, a w sektorze prywatnym szybko wzrasta poziom inwestycji w R&D, czego można dowiedzieć z European Innovation Scoreboard. W takiej gospodarce pracownik nie jest „siłą wytwórczą”, lecz współtwórcą wartości firmy. To, w jaki sposób jest wykształcony, poinformowany i do jakiej wiedzy ma dostęp, przesądza o jego efektywności.

Dane i zarządzanie nimi to (na razie) domena osób na najwyższych szczeblach

Jednak w wielu przypadkach w firmach dostęp do analityki danych, przedstawianej w wygodny dla użytkownika sposób, jest ograniczony do zarządów i rad nadzorczych. Oczywiście znajduje to uzasadnienie w tym, że w tych miejscach zapadają najważniejsze dla firmy decyzje, a czas na ich podjęcie jest dobrem rzadkim.  Upraszczając – dobrze wykonany dashboard daje dokładniejszy i wygodniejszy w korzystaniu wgląd w sytuację firmy, niż odczytywanie danych z arkusza kalkulacyjnego.

Demokratyzacja danych przyda się w biznesie

Decyzje wymagające wiarygodnego i szybkiego dostępu do danych nie są wyłączną domeną top managementu. KPI, będące wyznacznikiem kondycji firmy, są generowane na podstawie danych czerpanych z zasobów przedsiębiorstwa (często połączonych z danymi zewnętrznymi). Zatem manager, który może decydować celniej, łatwiej, wygodniej i szybciej, niż za pomocą arkusza kalkulacyjnego w oczywisty sposób będzie bardziej efektywny. A jeżeli dodatkowo mógłby to robić na danych generowanych w czasie rzeczywistym, to dużo szybciej identyfikowałby sytuacje wymagające jego interwencji.

Właściwie w odniesieniu do wszystkich pracowników można byłoby znaleźć dobry biznesowy powód udostępnienia im wybranych danych posiadanych przez firmę (widziałem ostatnio przykład z dużej firmy, w której w ten sposób pracownicy otrzymywali informację, z czego wynika ich premia). Jestem w stanie pokazać sytuacje, gdy korzystne dla firmy byłoby udostępnianie zakresu danych partnerom, podwykonawcom a nawet klientom.

Demokratyzacja danych w biznesie
Dashboard dotyczący customer experience KPI (qlik.com).

Ochrona danych osobowych jako bariera w demokratyzacji danych

Przeważnie przeszkodą dla tego typu wykorzystania danych, które i tak są zbierane i analizowane przez firmę, jest obawa o ich ochronę (zarówno z powodu ich wartości rynkowej, jak i RODO). Tu jednak mam dobrą informację dla użytkowników Qlik Sense. Ma on rozbudowane i bardzo skuteczne rozwiązania dotyczące określania dostępu i ochrony danych.

Dostęp do danych wymaga kompetencji w ich obróbce

Drugą barierą są kompetencje niezbędne do przygotowania rzetelnych i wygodnych w korzystaniu analiz. Trzeba mieć wiedzę i umiejętności, których nabycie wymaga czasu, aby profesjonalnie przygotować trafną predykcję wykorzystującą Machine Learning. Wcześniej grupa ta ograniczała się do osób posiadających bardzo wysokie kompetencje analityczne, statystyczne i informatyczne. Dzisiaj istnieją jednak rozwiązania, które ułatwiają przygotowanie zaawansowanych i wartościowych analiz danych. Aplikacje takie jak Qlik Sense automatyzują wiele zadań związanych z ich przygotowaniem – od łączenia zbiorów danych, przez korzystanie z modeli Machine Learning, po wizualizację, a do ich używania nie potrzeba kilku lat studiów, lecz kilkumiesięcznego szkolenia. I znowu, trzeba zwrócić uwagę, że Qlik Sense ma dobre i rozbudowane funkcjonalności dotyczące ułatwień w korzystaniu z ML.

Ten rodzaj demokratyzacji danych nie jest jedyny, o którym warto wspomnieć. Szczególnie należy tu powiedzieć o otwieraniu danych publicznych. Projekt Open Data jest jednym z priorytetów UE i nawet niechęć urzędników do dzielenia się wiedzą oraz informacjami musi przed polityką unijną ustąpić.

Czy ma to znaczenie dla biznesu? Jak najbardziej. Po pierwsze, wiele z danych będących w dyspozycji administracji ma dużą wartość dla podejmowania decyzji w biznesie (szczególnie w połączeniu z danymi posiadanymi przez firmy). Możemy tu wskazać liczne przykłady takich zasobów. Już teraz bezpłatnie dostępny jest szeroki zakres zabiorów GIS, w tym pomiary automatyczne aż do statystyk o niskim poziomie agregacji.

Warto o tym wspomnieć także dlatego, że analizy danych statystycznych o niskim poziomie agregacji mogą pomóc w kształtowaniu evidence based polityk publicznych. Jest to jak na razie możliwość teoretyczna, ale nie dlatego, że takie zbiory nie istnieją, tylko ze względu na postawę decydentów. Gdyby było inaczej mogliby oni uniknąć blamażu i bałaganu związanego z „Nowym Ładem”. A przecież za bałagan ten zapłacił także biznes.

Wiem, że zabrzmi to jak „Bajki z mchu i paproci”, ale jest to kierunek, w którym idzie świat i prędzej czy później, do niego dołączymy. Zresztą prace na takimi rozwiązaniami są zaawansowane (Zintegrowana Platforma Analityczna). Teoretycznie dostępne mogłyby być zbiory danych zawierające indywidualne rekordy z baz ZUS, NFZ czy podatkowe. Z oczywistych powodów kluczowym problemem do rozwiązania jest tu kwestia ochrony danych osobowych. To jednak sprawa warta oddzielnego wpisu na blogu, ponieważ z punktu widzenia statystycznego nie jest ona banalna. Chociażby dlatego, że trzeba byłoby powiedzieć na czym polegają wielowymiarowe kostki statystyczne. Jeżeli jednak ktoś chciałby zobaczyć, jak może to wyglądać, to proponuję zajrzeć na Swedish National Data Service.

Ze wszystkich tych powodów rozwiązania informatyczne, które są efektywne w przetwarzaniu i analizie danych oraz przejrzystym ich komunikowaniu, są trudne do przecenienia w procesie demokratyzacji danych. Zarówno w biznesie, akademii, administracji, jak i dla obywateli. Nie muszę chyba dodawać, że Qlik Sense jest tu jednym z liderów.

 

Jak (nie)kłamać za pomocą statystyki?

W poprzednich wpisach pokazywałem niepoprawne wizualizacje danych wynikające nie tyle ze złych intencji, co z braku profesjonalizmu. Zgodnie z obietnicą dzisiaj chciałbym przedstawić kilka wykresów i infografik, które spokojnie mogłyby zostać umieszczone w opublikowanej 69 lat temu książce Darrela Huffa „How to lie with statistics?”. Nie zawsze jest oczywiste czy za błędami w wizualizacji danych statystycznych stoi niekompetencja, czy intencja. Dlatego wybrałem takie, w których intencja manipulacji nie budzi wątpliwości.

Nietrudno się zorientować, że w takich praktykach przodują politycy, ale znajdziemy też innych twórców wykresów statystycznych świadomie wprowadzających odbiorców w błąd. Ich wspólną cechą jest to, że autorzy chcą uzasadnić z góry przyjętą tezę za pomocą wizualizacji danych. Przyjrzyjmy się zatem kilku przykładom

Korelacja oznacza jedynie, że istnieje korelacja

Częste jest wnioskowanie na podstawie fałszywej korelacji – istniejącej między zmiennymi, które nie są od siebie zależne. Wiele z nich jest dość zabawnych (niektóre można obejrzeć w tym miejscu: https://www.tylervigen.com/spurious-correlations). Moją ulubioną jest korelacja pomiędzy liczbą filmów z Nicolasem Cage’m, a liczbą utonięć w USA na skutek wpadnięcia do basenu.

Poniżej jeden z bardzo wielu przykładów sytuacji, gdy autor na wykresie korelacje pokazuje, chociaż de facto ona nie istnieje. Problem polega jednak na tym, że autorem tej wizualizacji danych jest Apple, którego trudno podejrzewać o brak kompetencji dotyczących analizy danych.

Korelacja - Jak (nie)kłamać za pomocą statystyki
Źródło: Venngage.com

Apple za pomocą tego wykresu pokazywał, że dane zbierane przez firmę w aplikacjach (w tym wypadku Apple Maps) mają znaczenie w monitorowaniu skutków pandemii. Wykres pokazuje korelację wyszukiwania destynacji wyjazdowych z okresem lockdownu, z czego ma wynikać, że w jego trakcie mniej wychodziliśmy z domu. Być może tak było, jednak zakładanie, że mapy używamy za każdym razem, gdy wychodzimy z domu prowadzi do fałszywej korelacji. Map używamy raczej wtedy, gdy udajemy się w miejsce, do którego nie wiemy, jak dotrzeć. Z takich danych możemy zatem wnioskować, że podróżowaliśmy mniej (nic dziwnego, skoro lockdown objął także komunikację), ale na pewno nie to, że wychodziliśmy rzadziej z domu (idąc do pobliskiego parku mało kto używa mapy).

W tym wypadku „kłamstwo” miało najprawdopodobniej przyczynę marketingową. Wszystko, co dotyczyło pandemii było w 2020 roku czytane bardzo uważnie, zatem każda marka pokazująca dane dotyczące tego tematu miała gwarantowaną bezpłatną promocję. Tym bardziej, gdy firma sugeruje, że dane przez nią zbierane mają znaczenie w walce z pandemią.

Skala wszystko wytrzyma?

Kolejny przykład jest wart uwagi nie tylko z tego powodu, że pochodzi z podręcznika szkolnego, ale również, dlatego że Darrell Huffa takiego sposobu kłamstwa nie opisał. Co więcej, autorzy wizualizacji danych statystycznych podpierają się autorytetem wybitnego naukowca.

Skala - Jak (nie)kłamać za pomocą statystyki
Źródło: „Po Prostu Historia” (https://www.wsip.pl/upload/2016/11/flipbooki_html/155101/index.html#p=18), za Samarter Poland

Wykres pochodzi z podręcznika szkolnego i miał być ilustracją efektów polityki gospodarczej w przedwojennej Polsce. Nie ma wątpliwości, że światowy kryzys gospodarczy w 1929 roku spowodował gwałtowny wzrost bezrobocia także w Polsce. Jednak wykres pokazuje równie szybką poprawę sytuacji w latach 30-tych, czego dane akurat nie potwierdzają.

Jak robią to autorzy? Bezrobocie pokazują w liczbach bezwzględnych, a nie jako stopę (odsetek aktywnych zawodowo). Rynek pracy, z powodu procesów demograficznych, zmienia się pod względem liczby osób aktywnych zawodowo, zatem dane przedstawiane w liczbach bezwzględnych w kolejnych latach są nieporównywalne. Co więcej, wartości dodatnie (liczbę bezrobotnych) autorzy na wykresie pokazali jako wartości poniżej zera.
I wreszcie nie trzeba sokolego wzroku, aby zorientować się, że coś jest nie tak ze skalą. Proponuję porównać słupek reprezentujący 70 tys. bezrobotnych w 1929 roku i 620 tys. w roku 1936.

W konsekwencji spadek bezrobocia wydaje się znacznie większy niż był w rzeczywistości. A pamiętajmy, że czytelnikiem tego podręcznika są 15-latki.

Trend, którego nie ma?

Statystyki chorób budzą lęk i dlatego dobrze „sprzedają” treści publikowane w mediach. Poniżej kolejna wizualizacja danych statycznych na temat wzrostu liczby chorych na odrę. Jest to świetna ilustracja drugiego, najczęstszego po manipulacji skalą, sposobu kłamania za pomocą statystyk, czyli wybieranie jedynie tych danych, które potwierdzają naszą tezę („cherry picking”).

Telewizja TVN w alarmistycznym materiale dotyczącym wzrostu liczby chorych pokazała wykres, który ma tą tezę uzasadniać. W tym celu z trzynastoletniego szeregu czasowego wybrała jedyne cztery lata, które „potwierdzają” trend wzrostowy.

Trend, którego nie ma - Jak (nie)kłamać za pomocą statystyki?
Podana przez TVN liczba zachorowań na odrę w Polsce w latach 2010-2016 (za Smarter Poland)

Problem z wyłapywaniem takich manipulacji na ekranie telewizora polega na tym, że wykres pojawia się najwyżej na kilkanaście sekund i jego dokładniejsza analiza jest trudna.

Znowu – nie chcę pisać, że nie mamy problemu z liczbą zachorowań na odrę. Mamy i to duży. Wynika on z coraz większego odsetka osób nieszczepiących dzieci. Zjawisko to na infografice fantastycznie pokazał The Guardian (https://www.theguardian.com/society/ng-interactive/2015/feb/05/-sp-watch-how-measles-outbreak-spreads-when-kids-get-vaccinated).

Dane pokazujące skalę zagrożenia dużo lepiej niż zrobił TVN są łatwo dostępne. Wystarczy pokazać liczbę zakażeń i śmiertelność w długim szeregu czasowym, obejmującym także okres przed wprowadzeniem obowiązkowych szczepień. W dobrej sprawie nie trzeba kłamać. Wystarczy sięgnąć po rzetelne dane.

Trend, którego nie ma - Jak (nie)kłamać za pomocą statystyki?
Źródło: pubmedinfo.org

Bardzo dynamiczny wzrost

Poza manipulacją skalą możemy też spotkać manipulacje dynamiką wzrostu. Autorom infografiki poniżej nie wystarcza już pokazanie słupków odciętych na poziomie około 1000 zł. Nie wystarcza wzmocnienie tego zabiegu poprzez prezentowanie wzrostu składki przy pomocy pola i koloru słupka. Zasugerowali też, korzystając ze środków graficznych, geometryczny wzrost składki. Strzałka ponad wykresem pokazuje, że rośnie ona coraz szybciej. Naprawdę wygląda groźnie.

manipulacje dynamiką wzrostu
Źródło: Koalicja Obywatelska (za Smarter Poland).

Nie chcę powiedzieć, że składki na ZUS nie rosną i nie są bardzo dużym obciążeniem dla przedsiębiorców. Jesteśmy przyzwyczajeni do tego, że politycy manipulują faktami. Jednak w tym przypadku weszli na wyżyny i zdecydowanie zasłużyli na umieszczenie tej twórczości w kolejnym wydaniu książki Huffa.

Temat rzeka: Statystyki i koronawirus. Oto kolejny przykład nierzetelnej wizualizacji wykorzystanej w telewizji (tym razem w TVP), chociaż jej autorem jest Kancelaria Premiera. Poniższy wykres ma uzasadnić decyzje rządu o zakresie ograniczeń w czasie pandemii. Po obejrzeniu wizualizacji danych pokazanej poniżej możemy nabrać przekonania, że „Polski rząd oparł swoje decyzje na badaniach amerykańskich naukowców”.

manipulacje dynamiką wzrostu
Źródło: KPRM (za fizykwyjasnia.pl)

Znowu, ta manipulacja jest wielopoziomowa. Po pierwsze mamy tu skalę, która wprawdzie merytorycznie została użyta poprawnie, jednak zaryzykuję tezę, że 99,99% widzów Wiadomości TVP nie tylko nie rozumie skali logarytmicznej, ale nawet nie zauważy, że zastosowano skalę inną niż liniowa.

Najważniejsze jest jednak to, że wykres pokazuje coś zupełnie innego, niż obiecuje jego tytuł.

Wizualizacja nie dotyczy tego, że ryzyko zakażenia w hotelu jest większe niż np. w kościele, co sugeruje rządowa grafika. Wykres natomiast przedstawia liczbę dodatkowych zakażeń w przypadku zniesienia ograniczeń (na podstawie danych z USA). Oczywiście liczba bezwzględna zakażeń jest ważna, jednak nazywanie jej „ryzykiem” nie ma nic wspólnego z rzeczywistością. Ryzyko, a właściwie prawdopodobieństwo, pokazujemy za pomocą wartości z przedziału 0-1 (wyrażanej też w procentach) lub wskaźnikach liczby zdarzeń przypadającą na liczbę osób. Jeżeli w przypadku pokazania prawdopodobieństwa w USA moglibyśmy nawet próbować wnioskować, na ile konkretnie miejsce ma wpływ na prawdopodobieństwo zakażenia w Polsce, to pokazanie liczb bezwzględnych całkowicie wprowadza w błąd.

Zresztą autorzy raportu, na który powołuje się KPRM prezentują wiele infografik w rzeczywistości pokazujących ryzyko zakażenia. Z ważnych wizualizacji danych statystycznych zawartych w raporcie można dowiedzieć się nie tylko, gdzie ryzyko jest największe, ale także których grup dochodowych problem szczególnie dotyka. Po inne równie ciekawe odsyłam do źródła (https://www.nature.com/articles/s41586-020-2923-3#MOESM1)

manipulacje dynamiką wzrostu
Źródło: Nature.com

Co jest zaskakujące?

COVID-19 powodował wysyp wizualizacji danych statystycznych, które mniej lub bardziej świadomie wprowadzały w błąd. Zjawisko zrozumiałe, skoro od 100 lat nie mieliśmy do czynienia w pandemią w podobnej skali i nie mamy doświadczeń w mierzeniu takiego zjawiska.

Może stawiam poprzeczkę za wysoko autorom wizualizacji zamieszczonej poniżej, ale Statista to wiodąca firma w obszarze zbierania przetwarzania i udostępniania danych. Niektóre dane udostępniane są bezpłatnie, co służy promocji jej usług.

Tytuł poniższego materiału może wprowadzać nas w błąd, gdyż sugeruje, że nastąpiło jakieś zaskakujące zjawisko…

Tytuł sugeruje, że nastąpiło jakieś zaskakujące zjawisko
Źródło: Statista

Co jednak widać na wykresie? Zarobki w sektorze prywatnym mają od 2017 roku trend wzrostowy i pandemia tego nie zmienia. Mamy krótkie jego zaburzenie w drugim kwartale 2020, które jednak łatwo wyjaśnić nadzwyczajnym wydarzeniem (zatrzymanie znaczącej części gospodarki).

Jednak, gdy sprawdzimy w danych historycznych, to nie ma żadnej prawidłowości dotyczącej związku recesji z poziomem wynagrodzeń. W pięciu poprzednich amerykańskich recesjach dwukrotnie wynagrodzenia pozostawały na tym samym poziomie, dwukrotnie spadły, a raz wzrosły. Nie ma zatem żadnego powodu, aby dane z 2020 roku uznać za zaskakujące, ponieważ sugerowana zależność nie istnieje.

Co innego z bezrobociem. W zdecydowanej większości przypadków po drugiej wojnie światowej recesja wiązała się z jego wzrostem. To zresztą może nas naprowadzić na trop przyczyny wzrostu przeciętnych wynagrodzeń na początku wywołanej pandemią recesji. Być może przeciętne wynagrodzenia wzrosły, bo pracę straciły głównie osoby gorzej zarabiające? Taką hipotezę mogą potwierdzać dane opublikowane przez The Rand Blog dotyczące Los Angeles.

Tytuł sugeruje, że nastąpiło jakieś zaskakujące zjawisko
Źródło: The Rand Blog (https://www.rand.org/blog/)

Niczego istotnego nie dowiadujemy się z wykresu udostępnionego przez Statistę, a sugerowanie na jego podstawie, że firma ma jakieś szczególne kompetencje analityczne jest nadużyciem. Zaskakujące może być jedynie to, że Statista coś takiego robi.

Fake newsy i sposoby na ich obnażenie

Wiele z przykładów, które pokazałem powyżej mogłyby być określone jako fake newsy. Stanowią one ogromny problem dla jakości debaty publicznej, wprowadzają w błąd i wpływają negatywnie na zachowania obywateli. Warto zatem wiedzieć jak zidentyfikować treści, które możemy podejrzewać o to, że są fake newsami.

Jeżeli:

  • nie widzimy związku między skorelowanymi zmiennymi,
  • na osi czasu są „dziury” dotyczące niektórych okresów,
  • widzimy manipulacje skalą,
  • całość wygląda zbyt dobrze (pasuje idealnie do tezy),
  • obserwacje są prezentowane jako „niezwykłe”

to w takich przypadkach warto sięgnąć do źródła danych, żeby zweryfikować takiego newsa. A jeżeli źródło nie jest podane, to spokojnie możemy założyć, że mamy do czynienia z fake newsem.

W skrócie – możemy przyjąć, że jeżeli coś kwacze jak kaczka, ma dziób jak kaczka i pływa jak kaczka, to najprawdopodobniej jest kaczką.

Zobacz także: Programy do wizualizacji danych

Błędy w wizualizacji danych: Czego jeszcze może być za dużo?

W poprzednim wpisie obiecywałem, że napiszę więcej o przykładach niepoprawnych wizualizacji danych. Możesz o tym poczytać w artykule Kiedy mniej znaczy więcej, czyli o błędach wizualizacji danych.

Wyzwaniem w tym temacie jest nie tyle znalezienie przykładów, co ich selekcja. W sieci możemy znaleźć kilkanaście blogów robiących zestawienia najgorszych infografik i wizualizacji danych statystycznych. Wybrałem z nich kilka kolejnych, kierując się tym, na ile pokazują one różne typy wizualizacji niepoprawnych.

Za dużo elementów

Przeładowanie może dotyczyć także elementów na wykresie (np. liczby linii na wykresie) oraz liczby ikon lub zdjęć. Tak, jak w przypadku kolorów – dodawajmy je jedynie, gdy uważamy to za niezbędne do przekazania informacji. Poniżej dwa z wielu przykładów, co się dzieje, gdy o tym nie pamiętamy:

Błędy w wizualizacji danych - Za dużo elementów
Źródło: Venngage.com
Za dużo elementów - błędy w wizualizacji
Źródło: www.princeton.edu

Problem ten pojawia się także często w przypadku tworzenia dashboardów. Mamy skłonność do wykorzystania każdego kawałka miejsca wizualizacji. Co gorsza, uważamy, że niezapełniona powierzchnia jest błędem (graficy nawyzywają to „lękiem przed pustką”). Przykład tego, że tak nie jest możemy zobaczyć na poniższej infografice American Cancer Society. Pokazuje ona różnicę pomiędzy przeciętnym rozmiarem wykrytego guza piersi w latach 80-tych, gdy z badań mammograficznych korzystało 13% kobiet i w latach 90-tych, gdy badało się 60% kobiet. Pusta przestrzeń i jeden kolor podkreślają informację i wzmacniają jej funkcję perswazyjną.

Za dużo elementów - najczęstsze błędy podczas tworzenia wizualizacji danych
Źródło: „Information Graphics” (Taschen, 2012)

W przypadku dashboardów sytuacja jest trochę inna. Często zadanie polega na tym, żeby wnioski, indeksy czy predykcje mieściły się na jednym ekranie. Jednak, gdy będzie ich za dużo, odbiorca może się pogubić, tak, jak większość osób zgubiłaby się za kokpitem samolotu. Lepiej już opracować kilka zintegrowanych dashboardów, z przejrzystą nawigacją przełączania się między nimi lub zastanowić się, które z przedstawionych informacji nie są niezbędne dla odbiorcy.

Za dużo grafika

Wcześniejsze przykłady pokazują zagrożenia wynikające z braku kompetencji graficznych. Jednak zdarzają się też sytuacje odwrotne, w których należy powiedzieć, że przy przygotowaniu wizualizacji danych było „za dużo” ingerencji grafika!. Przygotowując infografiki musimy połączyć kompetencje analityczne i graficzne. Jednak, jak wskazuje sama nazwa „infografika”, jej podstawową funkcją jest informowanie, a grafika ma tu znaczenie użytkowe, nie artystyczne.

W pułapkę skoncentrowania się na warstwie wizualnej wpaść może zarówno grafik, który skupia się głównie na tym, żeby zrobić projekt wizualnie atrakcyjny, jak i nie-grafik, który chce ładnie zwizualizować dane. Trudno mi powiedzieć, która z sytuacja zaszła przy tworzeniu poniższej infografiki, natomiast efekt jest bardziej niż komiczny.

Za dużo grafiki podczas wizualizacji danych
Źródło: USA TODAY (za Visme.co)

Stojące na głowie słońce i termometr mówią nam, że pewnie chodzi o upały. Ale z części wizualnej odniesiemy wrażenie, że temperatury wzrosną do prawie do 120 stopni (Farenheita, bo to materiał z amerykańskiej gazety). Jednak z tekstu dowiemy się, że „temperatury mogą wzrosnąć do ponad 90, a nawet przekroczyć 100 stopni”. I że heat indeks zależy nie tylko od temperatury, ale także od wilgotności. Z grafiki dowiemy się także, że autorzy szczególnie apelują o zadbanie o zwierzęta domowe. Trochę dużo nieścisłości, jak na jeden rysunek.

Żeby nie być niesprawiedliwym pokażę też przykład, który jest nie tylko wysokiej artystycznej próby, ale również bardzo dobrze spełnia funkcję informacyjną.

Za dużo grafiki podczas wizualizacji danych
Źródło: Kamel Makhloufi „Information Grapnics” (Taschen, 2012)

Mamy tu dwie banalnie proste wizualizacje tych samych danych. Obie dotyczą liczby ofiar wojny w Iraku w ciągu pierwszych 6 lat jej trwania. Punkt reprezentuj jedną ofiarę, prawa część pokazuje ofiary na osi czasu. Kolory odznaczają typ ofiar: niebieski – żołnierzy USA, zielony: żołnierzy sojuszników, pomarańczowy – cywili, a ciemnoszary – żołnierzy przeciwnika. Informacja, dzięki prostej formie, jest bardzo przejrzysta. Jednocześnie mogłaby ona spokojnie zawisnąć w galerii i pewnie dlatego znalazła się w albumie Taschena „information Graphic”.

Infografika ta pokazuje też, jak możemy łatwo sobie poradzić z przedstawieniem większej liczby danych, które zawierają informacje o czasie wystąpienia zdarzenia. Wielokolorowa siatka jest łatwa do wygenerowania w każdym programie służącym do wizualizacji danych. Co więcej, w przypadku zmiennej ciągłej bardzo dobrze sprawdza się „mapa ciepła”, gdzie wartości w punktach czasu są reprezentowane kolorem według skali temperaturowej.

Za dużo kreatywności

Zdarzają się takie wizualizacje danych, którym pomysłowość autora odbiera sens.

Do przedstawienia procentowego rozbicia trzech zmiennych możemy wykorzystać ponad dziesięć typów wykresów. Autor infografiki poniżej wybrał jednak taki, w którym trudno doszukać się sensu. Faktycznie wykres obwarzankowy jest wizualnie atrakcyjny i stwarza możliwość podkreślenia jednej informacji wykorzystując wolną przestrzeń w środku obwarzanka (z tego zresztą powodu Qlik Sense zawiera szablon tego typu wizualizacji danych).

Jednak konia z rzędem temu, kto powie, dlaczego autor próbował zmieścić odpowiedzi na trzy pytania na jednym wykresie kołowym? Wykorzystanie trzech obwarzanków byłoby równie eleganckie wizualnie, stwarzałoby możliwość wykorzystania ikon i co najważniejsze – miałoby sens.

Za dużo kreatywności w wizualizacji danych
Źródło: Visme.co

Czasami jednak czegoś jest za mało…

I na zakończenie jeden przykład wizualizacji danych, o którym powinno się raczej powiedzieć:„Czegoś zabrakło”. A konkretnie, że zabrakło czasu. W tej kategorii błędów przodują media i poniższy przykład właśnie z medium jest zaczerpnięty.

Za dużo kreatywności - błędy w wizualizacji danych
Źródło: Vox Media (za Coolinfographics.com)

Wizualizacja przedstawia trzy zmienne dotyczące USA: wielkości donacji na organizacje pozarządowe zajmujące się różnymi chorobami i liczbę zmarłych na te choroby w rozbiciu na 10 kategorii chorób.

Ma rację Randy Krum, który infografikę pokazał na swoim blogu, że zgodnie z regułami sztuki, gdy używamy koła, to reprezentować wartości zmiennej powinno pole jego powierzchni, a nie promień. W tym przypadku powoduje to, że najniższe wartości są niemożliwe do zauważenia.

Drugą kwestią jest sortowanie danych. Zastosowany sposób wizualizacji traktuje dane jak dwie oddzielne tabele, a nie dwie kolumny jednej tabeli. Dlatego nawet przy oznaczeniu chorób kolorami, słabo widać dysproporcje tego, na kogo przekazujemy darowizny i śmiertelności choroby.

Po trzecie wreszcie, pokazanie legendy przy zastosowaniu 8 kolorów zamiast opisów obok kół zdecydowanie zmniejsza czytelność tej wizualizacji.

Trzy pierwsze błędy najprawdopodobniej wynikają z pośpiechu. Są one dość proste do wyłapania i łatwe do poprawienia. Trzeba mieć tylko na to czas. A mogłoby to wyglądać w ten sposób:

Błędy wizualizacji danych - Za dużo kreatywności
Źródło: Vox Media (za Coolinfographics.com)

Dodam, że dyskusyjna jest także sama analiza. Oczywistą intencją autora jest pokazanie, że Amerykanie dają pieniądze na leczenie chorób, które nie są „najważniejsze” z punktu widzenia zdrowia publicznego. Jednak przy takich porównaniach istotny jest także wiek umierających. Jeżeli na jedną chorobę umiera 100 osób w wieku przeciętnie 90 lat, a na drugą także 100, ale w wieku przeciętnie 40 lat, to ta druga jest dużo ważniejszym problemem z punktu zdrowia publicznego. I to jest powód, dla którego w statystykach dotyczących polityki zdrowotnej korzysta się ze wskaźnika utraconych lub zyskanych lat/miesięcy życia, a nie umieralności.

Chcę jeszcze zwrócić uwagę na jeden problem z wizualizacją danych za pomocą pola figury. Intuicja każe nam porównywać koła na podstawie średnicy, a nie pola (biolodzy ewolucyjni wyjaśniliby, dlaczego tak jest, ale nie tego dotyczy ten blog ;-)). Nie chcę napisać, że w żadnym wypadku nie możemy skorzystać z tego rodzaju wizualizacji danych. Możemy to spokojnie zrobić, gdy zależy nam najbardziej na czytelnym pokazaniu kolejności w ramach kategorii. Jednak dla purystów wizualizacyjnych dobrze byłoby wtedy pokazać skalę dla tego porównania.

Natomiast zdecydowanie odradzałbym unikać korzystania z innych kształtów niż kwadrat i koło do porównywania wielkości. W tym przypadku na pewno duża cześć oglądający wykres zinterpretuje go de facto jako słupkowy lub belkowy, pozostali natomiast nie będą wiedzieli, jak są porównanie wartości. Poniżej przykład, który został wskazany jako „the worst infographic ever”)

Częste błędy w wizualizacji danych - Za dużo kreatywności
Źródło: Do Rzeczy

Jak kłamać za pomocą statystyki?

Jak pisałem na początku – temat błędów i pomyłek w przygotowywaniu wykresów i wizualizacji danych statystycznych można byłoby ciągnąć jeszcze bardzo długo. Jednak następnym razem pokażę kilka przykładów wizualizacji, które mogłyby znaleźć się w klasyczniej publikacji „How to lie with statistics?”. Intencjonalne wprowadzanie w błąd jest częstą praktyką polityków i mediów, a w czasie panoszących się fake newsów warto poświęcić temu tematowi trochę uwagi.

 

W tekście korzystałem z publikacji na blogach i stronach: Collinfographics.com, Smarter Poland, www.princeton.edu, Visme.co, Ben Stanley  oraz albumu „Information Grapnics” (Taschen, 2012).

Rafał Szymczak, zajmuje się analizą i wizualizacją danych, prowadzi szkolenia i warsztaty na ten temat, autor bloga opowiadane.com.pl