Lance:面向多模态 AI 前沿的数据格式

Lei Xu

中文演讲 #ai

多模态模型的前沿训练需要处理 PB 级的多模态 AI 数据,包括视频、图像和长文本。新型 AI 数据的复杂性和规模对现有数据基础设施提出了挑战。

Apache 许可的 Lance 格式基于 Apache Arrow 和 Apache Datafusion 构建,核心采用 Rust 编写,开发团队由 Apache Hadoop、Apache HBase、Apache Iceberg、Apache Arrow 和 Delta Lake 的 PMC 成员组成。Lance 格式是一种专注于 AI 的新型列式存储格式和表格式,深受 Apache Parquet、Apache Iceberg 和 Apache Hudi 项目的启发。Lance 格式的显著特点是随机访问和零成本模式演进——这两个 AI 工程师最喜爱的特性。这些特性使 Lance 区别于 Apache Parquet、Apache ORC 或 Apache Iceberg,使其更适合多模态 AI 的特征工程和训练。

Lance 格式已被许多领先的 AI 公司采用,如 MidJourney、WorldLabs、Runway ML、Character AI 等。

本次会议将由 LanceDB CTO 徐磊(Apache Hadoop PMC 成员)与字节跳动火山引擎专家杨威(Apache Hudi PMC 成员)共同呈现:

  • 支持前沿多模态 AI 公司工作负载的基础设施挑战
  • Lance 格式背后的核心设计原则
  • 字节跳动火山引擎如何基于 Lance 格式构建 Lance 数据湖并支持全球顶尖 AI 公司

演讲嘉宾:


LanceDB 首席技术官。Apache Hadoop/HDFS PMC 成员。曾领导 Cruise Automation 的机器学习平台和数据基础设施团队。