SeaTunnel 架构分析与 Cloudberry 集成实践

陈虹宇

中文演讲 #dataops

在本场会议中,我们将深入探讨 Apache SeaTunnel,这一专为实现跨异构数据源大规模数据集无缝同步而设计的高性能分布式数据集成平台。与会者将深入了解 SeaTunnel 的核心架构,包括其模块化插件系统、基于 Spark 和 Flink 的统一抽象层,以及从 V1 到 V2 的演进历程,其中包含增强的可扩展性和引擎无关设计。我们将深入探讨高级功能,如动态分片策略、数据采样技术,以及针对基于字符串的分区进行优化处理,以实现高效的数据分布。

本次会议还将展示与 Cloudberry 的实际集成案例,演示 SeaTunnel 的 JDBC 基于连接器如何简化双向数据工作流,同时强调性能考量。最后,我们将讨论未来优化计划,包括通过gpfdist协议利用Cloudberry的并行处理能力进行大规模数据迁移的方案。本次演讲适合希望优化数据集成工作流、打破数据孤岛并充分释放现代数据生态系统潜力的数据工程师和架构师。

讲师:


网易数据集成研发工程师,拥有四年大规模数据传输系统经验,并持有东南大学计算机科学硕士学位。他参与Apache SeaTunnel项目,专精于为企业级ETL挑战构建高性能数据集成解决方案。其专业领域涵盖分布式系统、数据处理引擎及管道架构。