Qlik Open Lakehouse: streaming ingestion, transformacje w locie i zero-copy mirroring.

Qlik rozbudował swoją platformę Open Lakehouse o możliwości strumieniowego pobierania danych, transformacji w czasie rzeczywistym oraz rozszerzoną integrację z ekosystemem Apache Iceberg.
To odpowiedź na rosnące wymagania zespołów, które budują architektury analityczne i AI na otwartych formatach, bez vendor lock-in, z pełną kontrolą nad danymi w swojej chmurze.
Co nowego w Qlik Open Lakehouse
Najważniejsze zmiany dotyczą trzech obszarów: ingestion, transformacje i integracje.
Po pierwsze: streaming ingestion. Qlik Open Lakehouse obsługuje teraz pobieranie danych strumieniowych z Apache Kafka, Amazon Kinesis i Amazon S3 bezpośrednio do zarządzanych tabel Apache Iceberg. Dane trafiają do chmury klienta (Amazon S3), bez angażowania zasobów obliczeniowych hurtowni danych. Ingestion odbywa się na dedykowanym, ekonomicznym compute, co obniża koszty i zwiększa skalowalność.
Po drugie: streaming transformations. Dane można przetwarzać w locie – czyścić, filtrować, normalizować, spłaszczać struktury zagnieżdżone – jeszcze zanim trafią do docelowej tabeli Iceberg. To eliminuje potrzebę dodatkowych warstw ETL i skraca czas dostępności danych dla konsumentów downstream.
Po trzecie: automatyczna optymalizacja Iceberg. Qlik zarządza kompakcją plików i aktualizacją metadanych, co jest kluczowe dla utrzymania wydajności zapytań przy dużych wolumenach danych strumieniowych. Użytkownik nie musi ręcznie uruchamiać operacji OPTIMIZE ani VACUUM – platforma robi to sama.
Integracje z ekosystemem Iceberg
Qlik rozszerzył wsparcie dla narzędzi i platform, które pracują z Apache Iceberg:
- Snowflake Open Catalog – oprócz AWS Glue, Qlik wspiera teraz również katalog Snowflake
- Zero-copy mirroring do Databricks i Amazon Redshift – dane w Iceberg są dostępne w tych platformach bez duplikowania, analogicznie do istniejącego mirroringu do Snowflake
- Rozszerzona kompatybilność z Apache Spark – bezproblemowy dostęp do aktualnych tabel Iceberg
- Wsparcie dla Amazon Athena, Amazon SageMaker Studio, Trino, Presto – dane zapisane raz są queryable przez wiele silników
Zero-copy mirroring to kluczowa funkcja dla hybrydowych architektur lakehouse-warehouse. Dane fizycznie pozostają w Iceberg na S3, ale są widoczne i dostępne w Snowflake, Databricks czy Redshift bez dodatkowych kopii. To obniża koszty storage i upraszcza zarządzanie.
Governance i jakość danych
Qlik automatycznie stosuje governance do danych w Open Lakehouse. Każda tabela Iceberg ma:
- Data lineage – pełne śledzenie pochodzenia danych, od źródła do konsumenta
- Qlik Trust Score – wskaźnik jakości i wiarygodności danych, obliczany automatycznie
- Catalog services – automatyczna aktualizacja katalogu metadanych
- Data quality checks – walidacja danych w pipelineach
Governance nie jest tu nakładką ani osobnym narzędziem – jest wbudowany w platformę Qlik Talend Cloud i działa na poziomie pipelineów, tabel i mirrorowanych datasetów.
Architektura i deployment
Qlik Open Lakehouse zarządza tabelami Apache Iceberg na Amazon S3 w środowisku klienta. Pipeliny strumieniowe zapisują zdarzenia i aplikują transformacje w miarę przepływu danych. Kompresja i aktualizacja metadanych odbywają się automatycznie, co utrzymuje wydajność na dużą skalę.
Dane są zapisywane raz, w otwartym formacie Iceberg, i są dostępne dla wielu silników analitycznych bez duplikowania. To klasyczna architektura lakehouse, ale z zarządzaniem, które eliminuje typowe problemy: brak optymalizacji, chaos w katalogach, brak lineage, brak kontroli jakości.
Dostępność
Nowe funkcje streaming ingestion i streaming transformations mają być ogólnie dostępne w Q1 2026 dla klientów Qlik Talend Cloud. Wsparcie dla Snowflake Open Catalog, rozszerzona kompatybilność z Apache Spark oraz zero-copy mirroring do Databricks i Amazon Redshift będą wdrażane etapami, począwszy od Q1 2026, z harmonogramem regionalnym ogłaszanym w miarę udostępniania funkcji.
Dla zespołów budujących nowoczesne architektury danych na Apache Iceberg, Qlik Open Lakehouse oferuje zarządzaną platformę z pełnym governance, bez rezygnacji z otwartości i kontroli nad danymi. To połączenie, które w praktyce jest trudne do osiągnięcia – i właśnie dlatego warte uwagi.



