Wątpliwości wokół przydatności i jakości otwartych danych
Biznes często, choć nie zawsze, lekceważy otwarte dane publiczne jako źródło wiedzy. Po pierwsze dlatego, że przecież firmy i tak nie są w stanie przetworzyć danych, które mają w organizacji, zatem po co im ich jeszcze więcej? I tak nie będą miały możliwości wyciągnąć z nich wniosków. Po drugie, biznes ma uzasadnioną nieufność, co do jakości przedsięwzięć autorstwa instytucji publicznych, zatem wątpliwości budzi wartość analityczna tego, co mógłby dostać. Wiele osób może też powiedzieć, że korzysta z Open Data przygotowując na przykład analizy rynkowe, oparte na publicznie dostępnych statystykach. Wreszcie ci, którzy sprawą wykorzystywania otwartych danych interesowali się bliżej wiedzą, że żelazną zasadą otwartych danych pochodzących z instytucji publicznych jest to, że ich opracowania także muszą znaleźć się w otwartym dostępie. A żaden biznes nie lubi, gdy jego analizy są dostępne dla konkurencji.Niewykorzystany potencjał otwartych danych
Jednak niewykorzystany potencjał tkwiący w publicznych zbiorach jest bardzo duży. Znamy i wykorzystujemy zbiory danych przetworzonych (np. statystyki publiczne). Coraz częściej możemy znaleźć bezpłatnie dostępne zbiory o wysokiej szczegółowości, często w postaci pojedynczych rekordów danych z obserwacji. Dotyczy to danych z publicznych rejestratorów (np. zanieczyszczenie środowiska, także z pomiarów satelitarnych). Dostępny jest również szeroki zakres danych GIS. Tu powoli dochodzimy do najbardziej interesującej dla biznesu kategorii zbiorów, czyli wspomnianych już rejestrów publicznych, zawierających dane wrażliwe, jednak udostępniane w sposób zapewniający ochronę danych osobowych. Ze względu na to, że mówimy o dużych zbiorach danych, wymagających oczyszczenia, łączenia, przetwarzania i analiz, kluczowe jest korzystanie z narzędzia, które efektywnie te funkcje wykonuje. A tutaj niewątpliwe Qlik jest liderem na rynku. O czym zresztą pisałem już wcześniej [link] Pionierska analiza, pokazująca potencjał tkwiący w korzystaniu z danych z rejestrów publicznych, została przeprowadzona jeszcze na początku tego stulecia w Norwegii. Na podstawie połączonych rejestrów dotyczących procedur medycznych i … przestępczości pokazano, jak w przypadku zaburzeń psychiatrycznych różne terapie przekładają się na późniejsze niebezpieczne zachowanie pacjentów. W praktyce oznaczało to możliwość podejmowania trafniejszych, bo opartych na danych decyzji o wyborze optymalnych terapii. Oczywiście analiza pokazała także, gdzie tkwią zagrożenia takiego podejścia (ochrona danych wrażliwych), jednak również, gdzie tkwi jego potencjał (zasadnicze ograniczenie kosztów pozyskania dużych zbiorów danych źródłowych). Co to ma wspólnego z wykorzystaniem otwartych danych publicznych przez biznes? Doświadczenia te skłoniły dwa kraje – Szwecję i Australię do otwierania podobnych zbiorów danych na bardzo niskim poziomie agregacji (np. indywidualnych danych podatkowych, czy dotyczących ubezpieczeń społecznych albo edukacji), także firmom. W obu przypadkach odbyło się to z ograniczeniami wynikającymi z ochrony danych osobowych – bardzo ostrymi w Szwecji, trochę mniej w Australii. Ważne jest jednak to, że mechanizmy tych zabezpieczeń nie wpływają na jakość analiz statycznych przeprowadzanych na tych zbiorach.Korzyści z wykorzystywania otwartych danych
Jakie są korzyści dla biznesu z korzystania z otwartych zbiorów danych publicznych:- Niskie koszty pozyskania zbiorów – wspomniana norweska analiza łącznie z uzyskaniem i przetworzeniem zbioru kilku milionów rekordów kosztowała ok. 5.000 USD!
- Zbiory nie są obarczone błędem statycznym, ponieważ nie ma tu elementu losowego wyboru, lecz analizujemy cały zbiór.
- Dostęp do zbiorów mogących bardzo dobrze uzupełniać dane firmowe zarówno w analizach historycznych, jak i budowie modeli predykcyjnych.
Jak wygląda sytuacja korzystania z otwartych danych w Europie?
Zasadnicze dla dostępności danych publicznych jest przyjęcie przez Unię polityki Shaping Europe’s digital future, której elementem jest umożliwienie powtórnego użycia danych publicznych także biznesowi. Dlaczego? Unia w raporcie The Economic Impact of Open Data Opportunities for value creation in Europe oszacowała, że potencjał wzrostu wynikający z dostępu do danych publicznych w sektorach takich, jak ochrona zdrowia, rolnictwo, edukacja, handel w latach 2020-25 wynosi 15,6%. No dobrze, ale czy nie jest to przejawem myślenia życzeniowego urzędników na temat dostępności danych? Okazuje się jednak, że problemem nie jest podaż danych publicznych, lecz popyt na nie po stronie biznesu. Widać to chociażby we wskaźnikach „Open Data Maturity”, a praktyce można zobaczyć w repozytorium otwartych danych publicznych w UE. Polska jest tu jednym z liderów i wprawdzie w ostatnich trzech latach spadła o dwie pozycje, ale zajmuje w przywołanym zestawieniu czwarte po Francji i Ukrainie miejsce w Europie.Otwarte dane służące sektorowi prywatnemu – przykład wykorzystania
Wykorzystanie potencjału leży zatem bardziej po stronie biznesu. Czego jednak konkretnie moglibyśmy się dowiedzieć korzystając z rejestrów publicznych? Wyobraźmy sobie zatem, że:- Sieć handlowa mogłaby dostać zbiory geolokalizowanych danych dotyczących wysokości składek ZUS;
- Sieć aptek mogłaby uzyskać mapy zdrowotne na poziomie działania swoich placówek;
- Dział HR dużej firmy ubezpieczeniowej mógłby dostać informacje, jak wyglądają zarobki i trwałość zatrudnienia absolwentów wybranych specjalizacji kierunków studiów.