小米利用 Apache Paimon 实现高效数据和 AI 优化
Houliang Qi
中文演讲 2025-07-27 17:15 GMT+8 (ROOM : 万春厅) #datalake本次分享将重点介绍小米如何利用 Apache Paimon 提升信息化数仓、AI 数仓和 LLM 数据处理的效率并降低成本。同时,我们也将讨论如何利用 JuiceFS 支持 Paimon 的多云存储能力。最后,我们将介绍 Apache Gravitino 在管理 Paimon 元数据方面的应用。 提纲如下:
- Apache Paimon 在信息化数仓中的应用实践
- 我们将详细阐述如何使用 Paimon 作为维表替代 Iceberg 和 HBase,这一做法不仅满足了业务的时效性要求,还实现了 31% 的成本降低。此外,我们将讲解如何使用自定义 Lookup Shuffle 和远程存储作为 Lookup Cache 加速 Lookup Join 过程,使 Lookup Join 性能显著提升 60 倍。
- Apache Paimon 在 AI 数仓中的应用实践
- 在广告算法模型中,样本数据的数量和时效性至关重要。在引入 Paimon 之前,我们的离线和实时样本数据分别通过独立的系统进行处理,开发效率低下。通过引入 Paimon 的Partial Update和SPJ功能,我们实现了实时样本关联,将生成模型训练样本所需的时间从数天缩短到了小时级别。
- Apache Paimon 在 LLM 数据预处理中的实践
- 在 LLM 数据预处理中,数据去重是至关重要的一步。我们将介绍如何利用 Paimon 的主键表和Merge Engine特性,简化 LLM 数据预处理流程。
- Apache Paimon 多云存储能力构建与实践
- 云原生 Lakehouse 架构是新兴趋势,在小米,我们基于 JuiceFS 构建了多云存储能力。这种方式可以有效屏蔽业务应用底层存储(例如 OSS/Blob/KS3)的差异,不仅解决了自建 HDFS 存储成本高、慢节点等问题,还能充分发挥云存储低成本、高扩展性和高可靠性的优势,满足业务海量数据存储的需求。
- 基于 Gravitino 的元数据湖统一实践
- 我们将介绍如何使用 Gravitino 管理 Paimon 的元数据,并讨论统一元数据为我们的数据管理流程带来的优势。
通过本次分享,听众将了解小米如何利用 Apache Paimon 优化信息化/AI 数仓及 LLM 预处理,实现效率提升与成本节约;如何借助 Paimon 实现多云灵活性;以及如何使用 Apache Gravitino 进行统一的元数据管理。
讲师:
Houliang Qi: 小米高级软件研发工程师
Apache IoTDB 和 Apache TsFile PMC 成员,目前专注于小米数据湖平台的开发与实施。