腾讯实时计算的智能演进:全托管资源管理
Zihao Chen
中文演讲 #streaming- 背景与行业痛点
a. Flink 作为一种长期运行的有状态计算,广泛应用于实时数据仓库、实时分析和在线训练等场景。 b. 实时资源配置与运维是普遍挑战:过度配置导致资源浪费,而配置不足则引发延迟和故障转移。此外,资源需求随时间变化显著。 - 自动扩展架构的演进——全托管智能资源管理
a. 覆盖任务全生命周期的自动化资源解决方案,包括启动、运行时、升级及异常处理(延迟、故障转移)。 b. 借助AI模型实现精准预测(将预测误差从25%降至10%),实现从被动到主动的资源管理转变。
c. 云原生环境中的极致弹性,通过整合水平和垂直扩展技术,将任务资源利用率提升至90%。 - 核心技术优化——生产就绪的水平与垂直扩展
a. 水平扩展:通过热更新和预加载优化,实现高度可扩展的二级扩展。
b. 垂直扩展:通过原地 pod 资源更改的突破性技术,实现实时任务的零停机时间和个性化 pod 配置。 - 生产案例——从技术到业务价值
a. 稳定性:应用于腾讯视频、金融和游戏业务,将故障率降低 70%。 b. 资源节约:应用于实时报告和数据同步场景,提升资源利用率30%。 - 未来规划 a. 基于大型模型驱动的全面资源管理服务,进一步提升智能化水平。 b. 水平扩展:在运维层面实现弹性扩展,避免完全停机。 c. 垂直扩展:结合Pod热迁移技术,突破单节点限制。
讲师:
Zihao 多年来一直从事与Flink内核相关的研发工作。近年来,他主要专注于开发Flink的自动扩展功能,旨在提升Flink任务的稳定性和资源利用率。此外,他在SIGMOD会议上发表了一篇关于流处理场景下自动扩展的行业论文。