字节跳动 Flink 内存治理实践
Yiheng Tang
中文演讲 #streaming随着字节跳动内部流式任务需求的持续增长,Flink 已在各个业务领域大规模应用。在这些大规模任务的资源成本中,内存——尤其是堆内存——是显著的消耗。所有任务的总分配内存已达到数万 TB,但 JVM 堆内存利用率始终低于 50%,容器级内存使用率低于 70%。在全公司降本增效的背景下,我们围绕堆内存使用量预测、堆外内存使用量跟踪以及 Flink 内存模型的简化,开展了一系列内存优化。这些工作已在字节跳动成功推广,节省了超过数千 TB 的内存空间。 在本次演讲中,我们将介绍字节跳动 Flink 和 JVM 团队主导的关键联合优化工作,并分享我们取得的成果。
议程:
- 背景
- 字节跳动 Flink 的当前内存使用情况
- 我们面临的关键挑战
- 堆内存使用情况预测
- 堆外内存使用情况跟踪
- Flink 内存模型的简化:统一内存池
- 实现方式及优势
- 未来规划
- 探索进一步的优化方向
讲师:
字节跳动 Flink Runtime 开发人员