Apache Hudi 实战:加速快手数据仓库架构升级

刘朝阳

中文演讲 #datalake

主题介绍: Apache Hudi 是一种强大的表格式,提供丰富的能力,涵盖离线和实时场景。在快手推进数据仓库架构升级的过程中,Hudi 的数据湖能力在实时数据入湖、部分更新、大宽表等场景下,提升了时效性、降低了成本、提升了开发效率。

本主题分为三个部分:

  1. Apache Hudi 在快手的应用场景与挑战:

分享快手基于 Hudi 的业务场景以及规模化实施过程中遇到的挑战。2

. Apache Hudi 在快手的深度优化与优势:

介绍针对这些挑战的技术方案,包括原生引擎优化的记录格式、灵活的分桶索引能力、以及强大的非阻塞并发控制。 并通过实际案例展示 Hudi 在时效性、性能、成本效率、易用性和系统稳定性方面的提升。

  1. 未来展望:

讨论快手将数据湖功能与BI(商业智能)和AI(人工智能)计划相结合以推动进一步创新的路线图。

讲师:


快手核心Hudi工程师 | Apache Hudi活跃贡献者 | Apache RocketMQ提交者