字节跳动 Flink 内存治理实践
唐以恒, 汪少军
中文演讲 2025-07-26 14:00 GMT+8 (ROOM : 圆明厅) #streaming随着字节跳动内部流式任务需求的持续增长,Flink 已在各个业务领域大规模应用。在这些大规模任务的资源成本中,内存——尤其是堆内存——是显著的消耗。所有任务的总分配内存已达到数万 TB,但 JVM 堆内存利用率始终低于 50%,容器级内存使用率低于 70%。在全公司降本增效的背景下,我们围绕堆内存使用量预测、堆外内存使用量跟踪以及 Flink 内存模型的简化,开展了一系列内存优化。这些工作已在字节跳动成功推广,节省了超过数千 TB 的内存空间。 在本次演讲中,我们将介绍字节跳动 Flink 和 JVM 团队主导的关键联合优化工作,并分享我们取得的成果。
议程:
- 背景
- 字节跳动 Flink 的当前内存使用情况
- 我们面临的关键挑战
- 堆内存使用情况预测
- 堆外内存使用情况跟踪
- Flink 内存模型的简化:统一内存池
- 实现方式及优势
- 未来规划
- 探索进一步的优化方向
讲师:
唐以恒: 字节跳动基础设施工程师
字节跳动 Flink Runtime 开发人员
汪少军: 字节跳动,编程语言工程师
- Apache 孵化项目 teaclave 的 PPMC
- 自 2017 年起成为 Gopher 开发者
- 字节跳动编程语言工程师