以云原生方式最大化异构 GPU 利用率：释放 HAMi 的强大能力

Xiao Zhang, Yu Yin

中文演讲 2025-07-25 14:00 GMT+8 (ROOM : 静明厅) #ai

随着 AI 的日益普及，Kubernetes 已成为事实上的 AI 基础设施标准。然而，包含多种 AI 设备（如 NVIDIA、Intel、华为昇腾、海光、沐曦、寒武纪、天数智芯、燧原等）的集群数量不断增加，带来了重大挑战。AI 设备成本高昂，如何提高资源利用率？如何更好地与 K8s 集群集成？如何统一管理异构 AI 设备、支持灵活调度策略并实现可观测性，都面临诸多挑战。HAMi 项目应运而生。本次演讲内容包括：

Kubernetes 如何管理异构 AI 设备（统一调度、可观测性）
通过 GPU 共享提升设备利用率
在 GPU 共享场景下保障高优先级任务的 QoS
支持灵活的 GPU 调度策略（NUMA 亲和/反亲和、装箱/分散等）
与其他项目的集成（如 Volcano、scheduler-plugin 等）
生产级用户的真实案例分享
当前仍面临的挑战与未来规划

演讲嘉宾:

Xiao Zhang: dynamia.ai 创始人，云原生爱好者和社区维护者，专注于人工智能基础设施。

Xiao Zhang 是 dynamia.ai 创始人（专注于基础设施、AI、多集群管理、集群生命周期管理（LCM）和开放容器倡议（OCI））。他同时也是社区的活跃贡献者和云原生技术爱好者，目前是 Kubernetes/Kubernetes 特别兴趣小组（Kubernetes-sigs）成员，并担任 Karmada、kubean 和 cloudtty 项目的维护者。此外，他还是 CNCF HAMi 项目的共同发起人和维护者，GitHub ID 为 wawa0210。

Yu Yin: 产品负责人 @dynamia.ai | 开源维护员 @HAMi | 在 Kubernetes 上推动 GPU 虚拟化和人工智能基础设施创新

Yu Yin 是 dynamia.ai 的产品负责人，同时也是 HAMi 的核心维护者，HAMi 是 Kubernetes 上 GPU 虚拟化和异构计算的开源项目。凭借在构建人工智能基础架构方面的实践经验，Yu 主要致力于为多架构环境实现可扩展的 GPU 共享、设备池和智能调度。他曾帮助物流、电信和金融领域的企业用户在生产中采用异构资源管理。同时，余先生也是中国开源应用的积极倡导者，并领导着 HAMi 社区的国际化工作。