使用 Apache NiFi 和 Polaris 进行 Apache Iceberg 数据采集

Lester Martin

英文演讲 #streaming

基于 Iceberg 的数据湖的一项基本要求是数据采集。一种方法是利用 Apache NiFi。NiFi 是一款多模态数据流水线工具,拥有众多处理器,可以组合成一个流程,以满足您的特定场景。NiFi 的低代码/无代码方法使数据工程师能够快速构建、部署和监控其数据采集和转换流水线。NiFi 还支持使用多种语言(包括 Java 和 Python)进行自定义处理器开发。

本演示将介绍几种常用方法,最终演示一个丰富的数据流水线,该流水线从 Kafka 获取数据,执行典型的转换处理(包括数据丰富),并将数据加载到高性能 Iceberg 表中,该表将通过流行的查询引擎使用并通过 Apache Polaris REST 目录访问。

讲师:


Lester Martin 是一位经验丰富的开发倡导者、培训师、博主和数据工程师,专注于使用 Trino、Iceberg、Hive、Spark、Flink、Kafka、NiFi、NoSQL 数据库以及经典关系型数据库管理系统 (RDBMS) 进行数据管道和数据湖分析。访问 Lester 的博客:https://lestermartin.blog。