使用外部状态和动态表实现可扩展的连接和聚合
Feng Jin
中文演讲 #streaming- 背景与动机 • Flink SQL 在规模化方面的挑战:大状态、长连接、复杂的维护 • 业务用例:汽车数据仓库和报警系统
- 使用增量连接和合并引擎实现状态外部化 • 增量连接:包含最新快照的外部维度表 • 合并引擎:用于聚合结果的外部更新插入表 • 如何在确保正确性和延迟的同时最小化内部状态
- 动态表的作用 • 中间表爆炸:状态外部化的隐性成本 • 动态表如何自动化模式创建、生命周期和数据沿袭 • 赋能开发者:编写业务逻辑,告别管道
- 实现批流统一 • 轻量级 Flink 状态:仅跟踪偏移量 • 实时和回填工作流使用相同的 SQL 逻辑 • 在回填、审计和重新处理方面的实际优势
- 成果与经验教训 • 开发者体验和生产力收益 • 提升作业弹性和可观察性 • 下一步计划:与元数据和调度更紧密地集成
讲师:
Feng Jin 目前是小米计算平台团队成员,负责维护内部 Flink 框架并构建公司实时 Lakehouse 架构。他在大规模流处理、Flink SQL 优化和状态管理方面拥有丰富的经验。他也是 Apache Flink 的提交者,积极为开源社区做出贡献。