打破数据孤岛：Apache Gravitino在哔哩哔哩的生产实践

Tianhang Li

中文演讲 2025-07-27 14:00 GMT+8 (ROOM : 万春厅) #datalake

Apache Gravitino 是哔哩哔哩采用的一个统一元数据管理平台，旨在解决数据孤岛问题，实现跨异构数据源（如 Hive、Iceberg、Kafka 等）的元数据视图集成。通过端到端的血缘追踪，Gravitino 能够追溯数据从摄入、处理到服务交付的整个工作流程，从而优化资源利用，并分析模式变更带来的影响。通过整合 Iceberg 的分区策略（如截断/分桶）和分支特性，Gravitino 支持灵活的数据版本控制、多流数据拼接以及隔离的测试环境。对于人工智能驱动的场景，该平台提供了系统化的训练数据集分区和模型版本管理，确保了可重复性和简化的 AI 资产管理。这一解决方案降低了跨数据源的维护开销，增强了数据一致性，并为哔哩哔哩的 AI 应用和全企业级数据治理建立了可扩展的技术基础。

讲师:

Tianhang Li: Bilibili 大数据开发工程师 | Apache Gravitino 贡献者 | 元数据管理和 Spark 优化专家

李天航是哔哩哔哩的大数据开发工程师，专注于大规模数据场景下的元数据管理和 Spark 计算引擎优化。