Co nowego w Qlik Open Lakehouse
Najważniejsze zmiany dotyczą trzech obszarów: ingestion, transformacje i integracje. Po pierwsze: streaming ingestion. Qlik Open Lakehouse obsługuje teraz pobieranie danych strumieniowych z Apache Kafka, Amazon Kinesis i Amazon S3 bezpośrednio do zarządzanych tabel Apache Iceberg. Dane trafiają do chmury klienta (Amazon S3), bez angażowania zasobów obliczeniowych hurtowni danych. Ingestion odbywa się na dedykowanym, ekonomicznym compute, co obniża koszty i zwiększa skalowalność. Po drugie: streaming transformations. Dane można przetwarzać w locie – czyścić, filtrować, normalizować, spłaszczać struktury zagnieżdżone – jeszcze zanim trafią do docelowej tabeli Iceberg. To eliminuje potrzebę dodatkowych warstw ETL i skraca czas dostępności danych dla konsumentów downstream. Po trzecie: automatyczna optymalizacja Iceberg. Qlik zarządza kompakcją plików i aktualizacją metadanych, co jest kluczowe dla utrzymania wydajności zapytań przy dużych wolumenach danych strumieniowych. Użytkownik nie musi ręcznie uruchamiać operacji OPTIMIZE ani VACUUM – platforma robi to sama.Integracje z ekosystemem Iceberg
Qlik rozszerzył wsparcie dla narzędzi i platform, które pracują z Apache Iceberg:- Snowflake Open Catalog – oprócz AWS Glue, Qlik wspiera teraz również katalog Snowflake
- Zero-copy mirroring do Databricks i Amazon Redshift – dane w Iceberg są dostępne w tych platformach bez duplikowania, analogicznie do istniejącego mirroringu do Snowflake
- Rozszerzona kompatybilność z Apache Spark – bezproblemowy dostęp do aktualnych tabel Iceberg
- Wsparcie dla Amazon Athena, Amazon SageMaker Studio, Trino, Presto – dane zapisane raz są queryable przez wiele silników
Governance i jakość danych
Qlik automatycznie stosuje governance do danych w Open Lakehouse. Każda tabela Iceberg ma:- Data lineage – pełne śledzenie pochodzenia danych, od źródła do konsumenta
- Qlik Trust Score – wskaźnik jakości i wiarygodności danych, obliczany automatycznie
- Catalog services – automatyczna aktualizacja katalogu metadanych
- Data quality checks – walidacja danych w pipelineach