Data ingestion to proces pozyskiwania i wprowadzania danych do środowiska przetwarzania i analizy, takiego jak hurtownia danych, Data Lake lub platforma typu lakehouse. Obejmuje pobieranie danych z różnych źródeł, m.in. systemów transakcyjnych, aplikacji biznesowych, baz danych, plików, systemów SaaS oraz interfejsów API.
W praktyce data ingestion stanowi pierwszy etap budowy data pipeline. Może być realizowany w trybie wsadowym (batch processing) lub w czasie rzeczywistym (stream processing). Platformy takie jak Talend umożliwiają projektowanie i automatyzację procesów ingestion, kontrolę jakości danych już na etapie ich pozyskiwania oraz bezpieczne i skalowalne dostarczanie danych do dalszych warstw architektury danych.