Qlik Open Lakehouse: streaming ingestion, transformacje w locie i zero-copy mirroring.

Qlik rozbudował swoją platformę Open Lakehouse o możliwości strumieniowego pobierania danych, transformacji w czasie rzeczywistym oraz rozszerzoną integrację z ekosystemem Apache Iceberg. To odpowiedź na rosnące wymagania zespołów, które budują architektury analityczne i AI na otwartych formatach, bez vendor lock-in, z pełną kontrolą nad danymi w swojej chmurze.

Co nowego w Qlik Open Lakehouse

Najważniejsze zmiany dotyczą trzech obszarów: ingestion, transformacje i integracje. Po pierwsze: streaming ingestion. Qlik Open Lakehouse obsługuje teraz pobieranie danych strumieniowych z Apache Kafka, Amazon Kinesis i Amazon S3 bezpośrednio do zarządzanych tabel Apache Iceberg. Dane trafiają do chmury klienta (Amazon S3), bez angażowania zasobów obliczeniowych hurtowni danych. Ingestion odbywa się na dedykowanym, ekonomicznym compute, co obniża koszty i zwiększa skalowalność. Po drugie: streaming transformations. Dane można przetwarzać w locie – czyścić, filtrować, normalizować, spłaszczać struktury zagnieżdżone – jeszcze zanim trafią do docelowej tabeli Iceberg. To eliminuje potrzebę dodatkowych warstw ETL i skraca czas dostępności danych dla konsumentów downstream. Po trzecie: automatyczna optymalizacja Iceberg. Qlik zarządza kompakcją plików i aktualizacją metadanych, co jest kluczowe dla utrzymania wydajności zapytań przy dużych wolumenach danych strumieniowych. Użytkownik nie musi ręcznie uruchamiać operacji OPTIMIZE ani VACUUM – platforma robi to sama.

Integracje z ekosystemem Iceberg

Qlik rozszerzył wsparcie dla narzędzi i platform, które pracują z Apache Iceberg:

Snowflake Open Catalog – oprócz AWS Glue, Qlik wspiera teraz również katalog Snowflake
Zero-copy mirroring do Databricks i Amazon Redshift – dane w Iceberg są dostępne w tych platformach bez duplikowania, analogicznie do istniejącego mirroringu do Snowflake
Rozszerzona kompatybilność z Apache Spark – bezproblemowy dostęp do aktualnych tabel Iceberg
Wsparcie dla Amazon Athena, Amazon SageMaker Studio, Trino, Presto – dane zapisane raz są queryable przez wiele silników

Zero-copy mirroring to kluczowa funkcja dla hybrydowych architektur lakehouse-warehouse. Dane fizycznie pozostają w Iceberg na S3, ale są widoczne i dostępne w Snowflake, Databricks czy Redshift bez dodatkowych kopii. To obniża koszty storage i upraszcza zarządzanie.

Governance i jakość danych

Qlik automatycznie stosuje governance do danych w Open Lakehouse. Każda tabela Iceberg ma:

Data lineage – pełne śledzenie pochodzenia danych, od źródła do konsumenta
Qlik Trust Score – wskaźnik jakości i wiarygodności danych, obliczany automatycznie
Catalog services – automatyczna aktualizacja katalogu metadanych
Data quality checks – walidacja danych w pipelineach

Governance nie jest tu nakładką ani osobnym narzędziem – jest wbudowany w platformę Qlik Talend Cloud i działa na poziomie pipelineów, tabel i mirrorowanych datasetów.

Architektura i deployment

Qlik Open Lakehouse zarządza tabelami Apache Iceberg na Amazon S3 w środowisku klienta. Pipeliny strumieniowe zapisują zdarzenia i aplikują transformacje w miarę przepływu danych. Kompresja i aktualizacja metadanych odbywają się automatycznie, co utrzymuje wydajność na dużą skalę. Dane są zapisywane raz, w otwartym formacie Iceberg, i są dostępne dla wielu silników analitycznych bez duplikowania. To klasyczna architektura lakehouse, ale z zarządzaniem, które eliminuje typowe problemy: brak optymalizacji, chaos w katalogach, brak lineage, brak kontroli jakości.

Dostępność

Nowe funkcje streaming ingestion i streaming transformations mają być ogólnie dostępne w Q1 2026 dla klientów Qlik Talend Cloud. Wsparcie dla Snowflake Open Catalog, rozszerzona kompatybilność z Apache Spark oraz zero-copy mirroring do Databricks i Amazon Redshift będą wdrażane etapami, począwszy od Q1 2026, z harmonogramem regionalnym ogłaszanym w miarę udostępniania funkcji. Dla zespołów budujących nowoczesne architektury danych na Apache Iceberg, Qlik Open Lakehouse oferuje zarządzaną platformę z pełnym governance, bez rezygnacji z otwartości i kontroli nad danymi. To połączenie, które w praktyce jest trudne do osiągnięcia – i właśnie dlatego warte uwagi.

Qlik Open Lakehouse: streaming ingestion, transformacje w locie i zero-copy mirroring.

Co nowego w Qlik Open Lakehouse

Integracje z ekosystemem Iceberg

Governance i jakość danych

Architektura i deployment

Dostępność

Wiadomości analityczne

Talend – integracja i wzbogacanie danych do analiz AI.

Talend: nowoczesne rozwiązanie do integracji danych dla użytkowników Business Intelligence.

Porównanie: Talend Open Studio vs Qlik Talend Studio

Porozmawiaj z doradcą

Napisz do nas

Zadzwoń

Twoja wiadomość została wysłana poprawnie.