数据湖/数据仓库


出品人 : 代立冬, 史少峰, 胡宗棠

数据湖和数据仓库是存储和管理数据的重要解决方案,它们在数据管理、数据分析和决策中发挥着关键作用。 在ASF,有不少是与数据湖和数据仓库有关的项目,例如: Apache Hive, Apache Hudi, Apache Iceberg, Apache Paimon, Apache Cassandra, Apache HBase等。 在这个主题中,你将得到数据湖和仓库的最新情况,公司在生产中使用它们的最佳做法,以及这些项目的路线图。

时间待定

Apache Cloudberry 简介:演变、主要特性和路线图 中文演讲 Max Yang

Apache Gravitino:数据与AI的通用目录 英文演讲 Justin Mclean

Apache Hive 中带有分支和标记的 ETL 的未来 英文演讲 Attila Turóczy

Apache Hudi 实战:加速快手数据仓库架构升级 中文演讲 刘朝阳

Apache Iceberg 的隐藏超能力:治理、实验与自主未来 英文演讲 Shekhar Prasad Rajak

Apache Iceberg:高性能数据湖仓的表维护策略 英文演讲 Akshat Mathur

Apache Polaris(孵化中)和 Apache XTable:统一 Iceberg、Hudi 和其他表格式 英文演讲 Eric Maynard

Flink + Paimon 实时 Lakehouse 解决方案的技术演进 中文演讲 Xuannan Su

Impala 在 Iceberg 上与 Puffins 英文演讲 Daniel Becker

​​使用 Tantivy 在 Iceberg 上构建倒排索引:实践方法​​ 中文演讲 Longfei Liu

优化 Parquet 存储:元数据管理、性能调优和无缝迁移 中文演讲 甘红楠

使用 Apache Cloudberry 构建统一的 Lakehouse 解决方案 中文演讲 Rose Duan

使用 Apache Iceberg 增强 Lakehouse 实施 英文演讲 Bill Zhang

在实践中构建实时数据湖 中文演讲 Congxian Qiu

在腾讯云上基于 Iceberg & Amoro & Gravitino 构建云原生 Lakehouse 架构 中文演讲 周金松

基于Arm64架构,使用Gluten和Velox引擎加速Spark查询 中文演讲 Yuqi Gu

小米利用 Apache Paimon 实现高效数据和 AI 优化 中文演讲 Houliang Qi

打破数据孤岛:Apache Gravitino在哔哩哔哩的生产实践 中文演讲 Tianhang Li

统一数据湖接入与实时集成:解构 SeaTunnel 对 Hudi / Iceberg / Paimon 的架构级支持 英文演讲 Lidong Dai

货拉拉生产环境中的Apache Amoro与Iceberg实践 中文演讲 Zheng Yu Chen

顺丰速运与 Apache Spark 和 Gluten 的合作之旅 中文演讲 Weiting Chen