优化 Parquet 存储:元数据管理、性能调优和无缝迁移

甘红楠

中文演讲 #datalake

本次会议将深入探讨优化 Parquet 存储生态系统的高级技术。我们将探索一种全面的元数据管理方法——从高效的收集和存储到构建可扩展的元数据仓库。与会者将学习实用的存储优化策略,包括 ZSTD 压缩升级、本地/全局排序以及用于提升性能的列级调优。此外,我们还将介绍如何通过就地回溯和异构格式互操作性无缝迁移旧格式。无论您是处理大规模数据集还是优化存储效率,本次会议都能提供切实可行的见解,帮助您提升 Parquet 工作流程。

关键要点:

  1. 元数据生命周期管理(捕获、存储和利用)的最佳实践。2 . 使用 ZSTD 和数据组织提升查询/压缩性能的成熟方法。3 . 无需中断管道即可实现透明格式迁移的策略。

讲师:


  • 复旦大学学士和硕士学位
  • 字节跳动 SparkSQL 内核开发人员
  • 对 SQL 优化感兴趣