字节跳动 Flink 内存治理实践

Yiheng Tang

中文演讲 #streaming

随着字节跳动内部流式任务需求的持续增长,Flink 已在各个业务领域大规模应用。在这些大规模任务的资源成本中,内存——尤其是堆内存——是显著的消耗。所有任务的总分配内存已达到数万 TB,但 JVM 堆内存利用率始终低于 50%,容器级内存使用率低于 70%。在全公司降本增效的背景下,我们围绕堆内存使用量预测、堆外内存使用量跟踪以及 Flink 内存模型的简化,开展了一系列内存优化。这些工作已在字节跳动成功推广,节省了超过数千 TB 的内存空间。 在本次演讲中,我们将介绍字节跳动 Flink 和 JVM 团队主导的关键联合优化工作,并分享我们取得的成果。

议程:

  1. 背景
  • 字节跳动 Flink 的当前内存使用情况
  • 我们面临的关键挑战
  1. 堆内存使用情况预测
  2. 堆外内存使用情况跟踪
  3. Flink 内存模型的简化:统一内存池
  4. 实现方式及优势
  5. 未来规划
  • 探索进一步的优化方向

讲师:


字节跳动 Flink Runtime 开发人员