Data pipeline - co to jest? | Definicja - Słownik pojęć analitycznych Hogart

Data pipeline to uporządkowany ciąg procesów i technologii, które umożliwiają automatyczne pozyskiwanie, przetwarzanie, wzbogacanie oraz dostarczanie danych pomiędzy systemami. Obejmuje cały przepływ danych – od źródeł takich jak bazy danych, systemy ERP, aplikacje SaaS, API czy pliki, przez warstwy integracji i transformacji, aż po miejsca docelowe, takie jak hurtownie danych, Data Lake, platformy lakehouse czy systemy analityczne.

W praktyce data pipeline składa się z etapów takich jak data ingestion, walidacja i oczyszczanie danych, transformacje, kontrola jakości, orkiestracja zadań oraz monitoring poprawności działania. Nowoczesne pipeline’y danych mogą działać w trybie wsadowym (batch processing) lub strumieniowym (stream processing). Platformy takie jak Talend umożliwiają projektowanie, automatyzację i zarządzanie data pipelines w skali całej organizacji, zapewniając spójność, niezawodność oraz zgodność przepływów danych z zasadami data governance.