Apache Gravitino(孵化中):AI 时代的元数据管理解决方案

Xiaojing Fang

中文演讲 #ai

元数据管理已成为 AI 时代的基石。本次演讲将探讨 Apache Gravitino 如何实现大规模非结构化数据和模型的管理,以及小米如何利用 Gravitino 进行大语言模型(LLM)数据处理和模型生命周期管理的实际应用。

演讲大纲:

  1. AI 工作流中数据集和模型管理的挑战,以及 Gravitino 如何通过其 Fileset Catalog(结构化 AI 数据集治理)和 Model Catalog(统一模型生命周期管理)解决这些问题
  2. 利用 Gravitino 的标签系统、血缘追踪和凭证管理功能,最大化运营效率和治理合规性
  3. Fileset 在小米数据处理中的实践:在 AI 场景中,数据处理涉及下载、提取、过滤、去重和训练等多个阶段。利用 Fileset 提升了数据与 AI 引擎间的管道效率,实现了端到端数据集管理,并建立了统一的元数据视图
  4. 小米 AI 大模型管理实践:小米如何管理大模型元数据、部署模型服务,以及我们与 Gravitino 集成的未来计划

演讲嘉宾:


Apache Gravitino PPMC 成员,专注于数据与 AI 基础设施系统。