Nasz Blog

10 częstych błędów w analizie danych

W pracy z liczbami zawsze łatwo o błąd. Jednak o ile w matematyce najczęstsze błędy wynikają z nieprawidłowych obliczeń, zupełnie inaczej jest w dziedzinie analizy danych. Tu dużo łatwiej o pomyłkę, ponieważ kategorii błędów jest znacznie więcej i w dodatku nie są one tak oczywiste,  zarówno dla osób przygotowujących analizy, jak i ich odbiorców.

Jakie błędy najczęściej spotykamy w analizie danych? Oto 10 przykładów.

1. Nierzetelne dane

W procesie przetwarzania informacji jakość danych dostępnych na wejściu decyduje o prawdziwości analizy i wyciąganych na jej podstawie wniosków. Nierzetelność danych to bardzo szerokie pojęcie, gdyż może mieć różne przyczyny. Jedną z nich są błędy popełniane już na etapie wprowadzania danych lub rejestracji zdarzeń. Dane mogą zostać wprowadzone do systemu błędnie (np. popełniono błąd ręczny), z opóźnieniem lub nie zostać wprowadzone wcale (grzech zaniedbania). Mogą też zostać zdublowane.

W każdej z powyższych sytuacji analiza nie odda stanu faktycznego, a wyciągane na jej podstawie wnioski będą fałszywe.

2. Źle przygotowane dane

Jakość analiz zależy od osób przygotowujących dane. Najczęściej popełnianym błędem na etapie przygotowania jest brak zapewnienia kompletności danych albo zawarcie w nich tzw. duplikatów, czyli danych zdublowanych. Przyczyny błędów na tym polu też bywają różne – mogą wynikać ze złej organizacji zarządzania wiedzą w firmie, z niewiedzy lub po prostu być wynikiem błędu operacyjnego.

3. Ufność w zewnętrzne źródła danych

Wiele analiz bazuje nie tylko na danych własnych, ale również tych pozyskanych ze źródeł zewnętrznych. Należy pamiętać, że informacje ze źródeł zewnętrznych zawsze są obarczone ryzykiem błędu, nawet jeśli autoryzują je uznane na rynku firmy, organizacje czy instytuty badawcze.

Na tym jednak nie koniec – przytaczając różnego rodzaju eksperckie opracowania warto rozeznać kontekst ich powstania, np. na czyje zamówienie opracowano daną analizę czy raport. Warto przed wykorzystaniem danych z zewnątrz ocenić rzetelność ich źródeł. Przypomina to pracę dziennikarską, w której pozyskane informacje powinno się potwierdzić w co najmniej jednym alternatywnym źródle, a najlepiej w kilku.

4. Przestarzałe dane

To zmora organizacji, które nie dysponują odpowiednimi narzędziami analitycznymi lub które w obszarze analityki cierpią na niedostatek zasobów i w efekcie opracowywanie analiz trwa u nich długo. Żyjemy w dynamicznym świecie, w którym czas reakcji i zdolność adaptacji ma zasadnicze znaczenie w budowaniu pozycji konkurencyjnej. Jeśli sam proces przygotowania analiz jest czasochłonny, to najczęściej oparte na nich wnioski i raporty są przedawnione już w dniu dostarczenia i nie odzwierciedlają stanu „tu i teraz” – tak bardzo potrzebnego managerom.

5. Niewłaściwy benchmark, czyli złe punkty odniesienia

Wyciąganie wniosków z analiz często bazuje na porównywaniu uzyskanych danych z wybranym punktem odniesienia. Na tym polu łatwo o błąd, który może prowadzić decydentów do mylnych wniosków. Najczęstszym błędem jest odnoszenie zestawu danych do niewłaściwych zestawów danych alternatywnych.

Innymi słowy: nie powinno się porównywać jabłek z pomarańczami. Niewłaściwy benchmark może polegać na zestawieniu niepasujących do siebie kategorii (np. sprzedaży dwóch różnych produktów, których modele sprzedaży są dalece odmienne) lub nieadekwatnych przedziałów czasu.

6. “Zgubienie” kontekstu analizy

Podczas analizowania danych nie powinno się na nie patrzeć bez zrozumienia kontekstu i uwarunkowań, w jakich te dane zebrano. Wnioskowanie powinno być wspierane poszukiwaniem odpowiedzi na pytanie, dlaczego mamy do czynienia z takimi a nie innymi danymi, co się stało, jaka jest tego przyczyna.

Dobrym przykładem może być porównywanie sprzedaży w roku przed pandemią Covid 19 do sprzedaży w roku pandemii. W sytuacji dużego spadku obrotów nie powinno się wyciągać zawsze prostego wniosku i obarczać winą działu handlowego. Sprzedaż zmalała, ponieważ zmieniły się makroekonomiczne uwarunkowania rynkowe. Same dane jednak na to bezpośrednio nie wskazują – pokazują tylko, że w kolejnym roku handlowcy mieli gorsze rezultaty. Warto pamiętać, że prawdziwy kontekst często nie jest łatwy do odkrycia, że często jest ukryty i że niekiedy trzeba wykonać sporo dodatkowej pracy, by odkryć i ocenić rzeczywiste przyczyny zdarzeń poddawanych analizie.

7. Ślepa ufność w średnią lub inne „święte wskaźniki”

Częstym błędem w procesie analizy danych jest posługiwanie się ograniczoną liczbą wskaźników lub nadmierne przywiązanie do jednego wybranego wskaźnika. Warto szczególnie zwrócić uwagę  na sposób wykorzystywania średniej jako wskaźnika oddającego pewną rzeczywistość (niekiedy jest to element celowego manipulowania wynikami). Już samo zestawienie średniej z medianą często pokazuje, jak bardzo pierwotna interpretacja rzeczywistości oparta na średniej powinna zostać poddana korekcie. Podobnie jest z innymi wskaźnikami.

W analizie, podobnie jak w obserwowaniu świata w ogóle, warto bazować na różnych perspektywach, by uzyskać przynajmniej zbliżony do prawdy obraz.

8. Niedostateczne opisy i wnioskowanie

Warunkiem przygotowania dobrej analizy jest opracowanie legendy, właściwe opisanie wskaźników oraz ich interpretacja – przynajmniej na takim poziomie, który zmniejszy ryzyko wyciągnięcia przez odbiorcę analizy błędnych wniosków. Autor zestawień powinien postawić się w sytuacji odbiorców raportu i postarać się uprzedzić ich ewentualne pytania. Warto pamiętać, że nawet prosty błąd w postaci źle opisanej legendy wykresu może prowadzić do mylnej decyzji. Podobnie jest w sytuacji przedstawiania jedynie samych danych – dobry analityk powinien nie tylko je opisać, podkreślając różne konteksty czy uwarunkowania, ale rzeczywiście przedstawić odbiorcom swoją interpretację jako uzupełnienie przetworzonych danych.

9. Słaba czytelność wyników analizy danych

Poniekąd odnosi się to do poprzedniego punktu, natomiast kwestia ta bardziej dotyczy warstwy narzędzi analitycznych. Informacje można na różne sposoby wizualizować, natomiast warto pamiętać, że odbiorcy raportów mają indywidualne preferencje w zakresie tego, w jaki sposób chcieliby korzystać z informacji. Podczas gdy jedni preferują tabele, inni chcą zobaczyć wykres. Dla jednych ważne jest ujęcie kilku wskaźników w jednym zestawieniu; inni wolą wchodzić w szczegóły badając tylko wybrany wskaźnik.

Kłopoty pojawiają się, gdy opracowana analiza jest nieczytelna i mało zrozumiała dla jej odbiorców. Tu z pomocą przychodzą systemy informatyczne, które automatyzują wizualizację danych i umożliwiają indywidualne kształtowanie interfejsów użytkownika zależnie od potrzeb w zakresie raportowania.

10. Pułapka subiektywizmu

Odbiorca analizy powinien mieć świadomość, że każdemu przedstawianiu informacji czy interpretacji wyników może towarzyszyć stronniczość – niezamierzona lub celowa. Skażenie subiektywizmem może zaczynać się już na etapie zbierania danych do analizy. Podobnie na etapie interpretacji analityk nie zawsze (mimo szczerych chęci) jest w stanie zachować pełną neutralność i obiektywizm. W końcu jako człowiek ma własny punkt widzenia i pracuje wykorzystując osobiste doświadczenie. W kontekście odbioru różnego rodzaju analiz należy też pamiętać, że ich brzmienie może zostać celowo poddane zniekształceniom, np. gdy analiza powstaje tylko po to, by udowodnić lub obalić z góry postawioną tezę.

Jak ustrzec się przed błędami w analizie danych?

Czy można ustrzec się przed błędami w analizowaniu danych? Na pewno większości z nich można skutecznie unikać lub minimalizować je do poziomu dającego możliwość efektywnego działania. Głównym eliminatorem błędów w obliczeniach i wizualizacji danych są dedykowane systemy informatyczne, takie jak np. Qlik Sense czy Qlik View.

Rozwiązania te w sposób automatyczny wizualizują dane, tak jak sobie tego życzą indywidualni użytkownicy. Informacje przetwarzane są w czasie rzeczywistym, co oznacza, że odbiorcy analiz mają pewność, że dane są zawsze aktualne. Ponadto rozwiązania z rodziny Qlik dają możliwość wielowymiarowego eksploatowania danych, co z kolei zmniejsza ryzyko ich niewłaściwej interpretacji czy zmanipulowania na etapie opracowywania wniosków w procesie analizy.