字节跳动 Flink 内存治理实践

唐以恒, 汪少军

中文演讲 2025-07-26 14:00 GMT+8  (ROOM : 圆明厅) #streaming

随着字节跳动内部流式任务需求的持续增长,Flink 已在各个业务领域大规模应用。在这些大规模任务的资源成本中,内存——尤其是堆内存——是显著的消耗。所有任务的总分配内存已达到数万 TB,但 JVM 堆内存利用率始终低于 50%,容器级内存使用率低于 70%。在全公司降本增效的背景下,我们围绕堆内存使用量预测、堆外内存使用量跟踪以及 Flink 内存模型的简化,开展了一系列内存优化。这些工作已在字节跳动成功推广,节省了超过数千 TB 的内存空间。 在本次演讲中,我们将介绍字节跳动 Flink 和 JVM 团队主导的关键联合优化工作,并分享我们取得的成果。

议程:

  1. 背景
  • 字节跳动 Flink 的当前内存使用情况
  • 我们面临的关键挑战
  1. 堆内存使用情况预测
  2. 堆外内存使用情况跟踪
  3. Flink 内存模型的简化:统一内存池
  4. 实现方式及优势
  5. 未来规划
  • 探索进一步的优化方向

讲师:


唐以恒: 字节跳动基础设施工程师

字节跳动 Flink Runtime 开发人员


汪少军: 字节跳动,编程语言工程师

  1. Apache 孵化项目 teaclave 的 PPMC
  2. 自 2017 年起成为 Gopher 开发者
  3. 字节跳动编程语言工程师