Nasz Blog

Otwarte dane i ich potencjał biznesowy. Jak je wykorzystywać?

Otwarte dane (Government Open Data) to informacje udostępnione publicznie, które każdy może swobodnie wykorzystywać, dystrybuować i modyfikować, bez ograniczeń prawnych, technicznych czy finansowych. Zazwyczaj odnoszą się do danych generowanych przez instytucje publiczne, takie jak rządy, organizacje międzynarodowe lub instytucje naukowe, ale mogą też pochodzić od prywatnych źródeł. Otwarte dane powinny być dostępne w formatach umożliwiających łatwe przetwarzanie i analizę, co sprzyja transparentności, innowacjom oraz współpracy między różnymi podmiotami. Kluczowe cechy otwartych danych to dostępność, ponowne wykorzystanie, dystrybucja i uniwersalność formatów.

Wątpliwości wokół przydatności i jakości otwartych danych

Biznes często, choć nie zawsze, lekceważy otwarte dane publiczne jako źródło wiedzy. Po pierwsze dlatego, że przecież firmy i tak nie są w stanie przetworzyć danych, które mają w organizacji, zatem po co im ich jeszcze więcej? I tak nie będą miały możliwości wyciągnąć z nich wniosków. Po drugie, biznes ma uzasadnioną nieufność, co do jakości przedsięwzięć autorstwa instytucji publicznych, zatem wątpliwości budzi wartość analityczna tego, co mógłby dostać. Wiele osób może też powiedzieć, że korzysta z Open Data przygotowując na przykład analizy rynkowe, oparte na publicznie dostępnych statystykach. Wreszcie ci, którzy sprawą wykorzystywania otwartych danych interesowali się bliżej wiedzą, że żelazną zasadą otwartych danych pochodzących z instytucji publicznych jest to, że ich opracowania także muszą znaleźć się w otwartym dostępie. A żaden biznes nie lubi, gdy jego analizy są dostępne dla konkurencji.

Niewykorzystany potencjał otwartych danych

Jednak niewykorzystany potencjał tkwiący w publicznych zbiorach jest bardzo duży. Znamy i wykorzystujemy zbiory danych przetworzonych (np. statystyki publiczne). Coraz częściej możemy znaleźć bezpłatnie dostępne zbiory o wysokiej szczegółowości, często w postaci pojedynczych rekordów danych z obserwacji. Dotyczy to danych z publicznych rejestratorów (np. zanieczyszczenie środowiska, także z pomiarów satelitarnych). Dostępny jest również szeroki zakres danych GIS.

Tu powoli dochodzimy do  najbardziej interesującej dla biznesu kategorii zbiorów, czyli wspomnianych już rejestrów publicznych, zawierających dane wrażliwe, jednak udostępniane w sposób zapewniający ochronę danych osobowych. Ze względu na to, że mówimy o dużych zbiorach danych, wymagających oczyszczenia, łączenia, przetwarzania i analiz, kluczowe jest korzystanie z narzędzia, które efektywnie te funkcje wykonuje.
A tutaj niewątpliwe Qlik jest liderem na rynku. O czym zresztą pisałem już wcześniej [link]

Pionierska analiza, pokazująca potencjał tkwiący w korzystaniu z danych z rejestrów publicznych, została przeprowadzona jeszcze na początku tego stulecia w Norwegii. Na podstawie połączonych rejestrów dotyczących procedur medycznych i … przestępczości pokazano, jak w przypadku zaburzeń psychiatrycznych różne terapie przekładają się na późniejsze niebezpieczne zachowanie pacjentów. W praktyce oznaczało to możliwość podejmowania trafniejszych, bo opartych na danych decyzji o wyborze optymalnych terapii. Oczywiście analiza pokazała także, gdzie tkwią zagrożenia takiego podejścia (ochrona danych wrażliwych), jednak również, gdzie tkwi jego potencjał (zasadnicze ograniczenie kosztów pozyskania dużych zbiorów danych źródłowych).

Co to ma wspólnego z wykorzystaniem otwartych danych publicznych przez biznes? Doświadczenia te skłoniły dwa kraje – Szwecję i Australię do otwierania podobnych zbiorów danych na bardzo niskim poziomie agregacji (np. indywidualnych danych podatkowych, czy dotyczących ubezpieczeń społecznych albo edukacji), także firmom. W obu przypadkach odbyło się to z ograniczeniami wynikającymi z ochrony danych osobowych – bardzo ostrymi w Szwecji, trochę mniej w Australii. Ważne jest jednak to, że mechanizmy tych zabezpieczeń nie wpływają na jakość analiz statycznych przeprowadzanych na tych zbiorach.

Korzyści z wykorzystywania otwartych danych

Jakie są korzyści dla biznesu z korzystania z otwartych zbiorów danych publicznych:

  • Niskie koszty pozyskania zbiorów – wspomniana norweska analiza łącznie z uzyskaniem i przetworzeniem zbioru kilku milionów rekordów kosztowała ok. 5.000 USD!
  • Zbiory nie są obarczone błędem statycznym, ponieważ nie ma tu elementu losowego wyboru, lecz analizujemy cały zbiór.
  • Dostęp do zbiorów mogących bardzo dobrze uzupełniać dane firmowe zarówno w analizach historycznych, jak i budowie modeli predykcyjnych.

Jak wygląda sytuacja korzystania z otwartych danych w Europie?

Zasadnicze dla dostępności danych publicznych jest przyjęcie przez Unię polityki Shaping Europe’s digital future, której elementem jest umożliwienie powtórnego użycia danych publicznych także biznesowi. Dlaczego? Unia w raporcie The Economic Impact of Open Data Opportunities for value creation in Europe oszacowała, że potencjał wzrostu wynikający z dostępu do danych publicznych w sektorach takich, jak ochrona zdrowia, rolnictwo, edukacja, handel w latach 2020-25 wynosi 15,6%.

No dobrze, ale czy nie jest to przejawem myślenia życzeniowego urzędników na temat dostępności danych? Okazuje się jednak, że problemem nie jest podaż danych publicznych, lecz popyt na nie po stronie biznesu. Widać to chociażby we wskaźnikach „Open Data Maturity”, a praktyce można zobaczyć w repozytorium otwartych danych publicznych w UE. Polska jest tu jednym z liderów i wprawdzie w ostatnich trzech latach spadła o dwie pozycje, ale zajmuje w przywołanym zestawieniu czwarte po Francji i Ukrainie miejsce w Europie.

Otwarte dane służące sektorowi prywatnemu – przykład wykorzystania

Wykorzystanie potencjału leży zatem bardziej po stronie biznesu. Czego jednak konkretnie moglibyśmy się dowiedzieć korzystając z rejestrów publicznych? Wyobraźmy sobie zatem, że:

  • Sieć handlowa mogłaby dostać zbiory geolokalizowanych danych dotyczących wysokości składek ZUS;
  • Sieć aptek mogłaby uzyskać mapy zdrowotne na poziomie działania swoich placówek;
  • Dział HR dużej firmy ubezpieczeniowej mógłby dostać informacje, jak wyglądają zarobki i trwałość zatrudnienia absolwentów wybranych specjalizacji kierunków studiów.

Bajka przyszłości? Niezupełnie, ten trzeci zbiór danych dla Polski możemy już dzisiaj zobaczyć w tym miejscu. Co więcej, ten sam model przetwarzania i udostępnienia danych dotyczących efektów kształcenia być może zostanie przyjęty w całej Unii.

Ogólnopolski system monitorowania Ekonomicznych Losów Absolwentów szkół wyższych

Także w Polsce można korzystać z otwartych danych

Jak widać, to co dzieje się obecnie w Polsce w kwestii udostępniania danych z rejestrów jest bardzo ciekawe. Biznes korzysta z danych otwartych, nie tylko publicznych, jednak podobnie, jak w przypadku danych własnych, problem polega na niewykorzystanym ich potencjale.

Potwierdza to zresztą przywołany już indeks Open Data Maturity, który pokazuje, że najsłabszą stroną Polski, jest wykorzystanie otwartych danych w różnych obszarach, w tym w gospodarce. A dostępność otwartych danych publicznych będzie szybko rosła.

Jeżeli ktoś jeszcze nie korzysta z tych zbiorów, to powinien przyjrzeć się ich użyteczności w swojej organizacji, bo być może konkurencja już to zrobiła. Jeżeli ktoś już to robi, to warto, żeby śledził projekt o nazwie Zintegrowana Platforma Analityczna. W ramach którego to projektu, dane z rejestrów będą udostępniane, choć z pewnymi ograniczeniami.

Skąd w Polsce pozyskiwać otwarte dane?

Mamy przygotowany model, ustawodawstwo i rozwiązania techniczne umożliwiające łączenie i udostępnianie danych z rejestrów publicznych (ZUS, NFZ, US). Można także korzystać ze zbiorów dostępnych na Dane.gov.pl. Pierwsze realizacje (na razie przez instytucje akademickie) są kwestią miesięcy, a nie lat. Biznes, jeżeli będzie chciał, będzie mógł z nich korzystać.

Jednym z innych sposobów bezpiecznego udostępniania danych na niskim poziomie agregacji z rejestrów jest model stosowany w szwedzkiej MONA. Prawdopodobnie zostanie on również zastosowany w Polsce. Analiza  jest realizowana według dostarczonego przez zainteresowanego algorytmu wewnątrz MONA (żadne dane wrażliwe nie opuszczają jej serwerów). Zamawiający dostaje zbiór danych pozbawionych cech umożliwiających identyfikację indywidualnych osób. Oczywiście, ten zbiór wchodzi automatycznie do domeny publicznej. Jednak największy potencjał dla biznesu wynika z możliwości łączenia takich baz z danymi firmowymi. A takie analizy pozostają własnością firmy.

W ten sposób wracamy do kwestii efektywności rozwiązań, które stosujemy w naszych analizach. Zbiór danych o losach absolwentów, o którym wcześniej pisałem, ma dzisiaj kilka milionów rekordów. Nie są to na pewno Big Data. Jednak, gdy będziemy chcieli łączyć go z danymi HR w dużej instytucji finansowej (aby na przykład analizować skuteczność rekrutacji oraz onbaordingu lub tworzyć predykcje retencji pracowników), to bez efektywnego narzędzia umożliwiającego przetwarzanie dużych zbiorów danych i tworzenia na ich podstawie analiz predykcyjnych się nie obędzie. Szczególnie, że przeważnie tego typu analizy będą musiały robić osoby rozumiejące konkretne dane, ale niekoniecznie eksperci z obszaru data science. O tym, dlaczego Auto ML Qlik Sense jest w takich sytuacjach bardzo przydatny też pisałem wcześniej [link].