字节跳动 Flink 内存治理实践

唐以恒, 汪少军

中文演讲 2025-07-26 14:00 GMT+8 (ROOM : 圆明厅) #streaming

随着字节跳动内部流式任务需求的持续增长，Flink 已在各个业务领域大规模应用。在这些大规模任务的资源成本中，内存——尤其是堆内存——是显著的消耗。所有任务的总分配内存已达到数万 TB，但 JVM 堆内存利用率始终低于 50%，容器级内存使用率低于 70%。在全公司降本增效的背景下，我们围绕堆内存使用量预测、堆外内存使用量跟踪以及 Flink 内存模型的简化，开展了一系列内存优化。这些工作已在字节跳动成功推广，节省了超过数千 TB 的内存空间。在本次演讲中，我们将介绍字节跳动 Flink 和 JVM 团队主导的关键联合优化工作，并分享我们取得的成果。

议程：

背景

字节跳动 Flink 的当前内存使用情况
我们面临的关键挑战

堆内存使用情况预测
堆外内存使用情况跟踪
Flink 内存模型的简化：统一内存池
实现方式及优势
未来规划

探索进一步的优化方向

讲师:

唐以恒: 字节跳动基础设施工程师

字节跳动 Flink Runtime 开发人员

汪少军: 字节跳动，编程语言工程师

Apache 孵化项目 teaclave 的 PPMC
自 2017 年起成为 Gopher 开发者
字节跳动编程语言工程师