使用 Apache Cloudberry 构建统一的 Lakehouse 解决方案

Rose Duan

中文演讲 #datalake

数据仓库擅长快速分析,而数据湖则注重可扩展存储和灵活的数据管理。Lakehouse 架构旨在将两者的优势结合起来——无缝集成跨数据湖和数据仓库的数据,以实现高效分析和统一治理。

作为下一代开源 MPP 数据库,Apache Cloudberry 扩展了其技术边界,构建了开放式 Lakehouse 解决方案。 本次演讲将介绍 Cloudberry 在实现统一 Lakehouse 架构方面的关键功能:

  1. 加速 Parquet/ORC 格式的 Lake 查询,无需数据移动
  2. 统一数据网关,用于跨异构数据源的查询和写入
  3. 集成数据处理和同步管道,实现从数据采集到分析的端到端流程
  4. 开放元数据和存储格式,简化生态系统集成并降低迁移成本

讲师:


Apache Cloudberry 贡献者,HashData 的数据库内核开发人员。