以云原生方式最大化异构 GPU 利用率:释放 HAMi 的强大能力
Xiao Zhang, Yu Yin
中文演讲 2025-07-25 14:00 GMT+8 (ROOM : 静明厅) #ai随着 AI 的日益普及,Kubernetes 已成为事实上的 AI 基础设施标准。然而,包含多种 AI 设备(如 NVIDIA、Intel、华为昇腾、海光、沐曦、寒武纪、天数智芯、燧原等)的集群数量不断增加,带来了重大挑战。AI 设备成本高昂,如何提高资源利用率?如何更好地与 K8s 集群集成?如何统一管理异构 AI 设备、支持灵活调度策略并实现可观测性,都面临诸多挑战。HAMi 项目应运而生。本次演讲内容包括:
- Kubernetes 如何管理异构 AI 设备(统一调度、可观测性)
- 通过 GPU 共享提升设备利用率
- 在 GPU 共享场景下保障高优先级任务的 QoS
- 支持灵活的 GPU 调度策略(NUMA 亲和/反亲和、装箱/分散等)
- 与其他项目的集成(如 Volcano、scheduler-plugin 等)
- 生产级用户的真实案例分享
- 当前仍面临的挑战与未来规划
演讲嘉宾:

Xiao Zhang: dynamia.ai 创始人,云原生爱好者和社区维护者,专注于人工智能基础设施。
Xiao Zhang 是 dynamia.ai 创始人(专注于基础设施、AI、多集群管理、集群生命周期管理(LCM)和开放容器倡议(OCI))。他同时也是社区的活跃贡献者和云原生技术爱好者,目前是 Kubernetes/Kubernetes 特别兴趣小组(Kubernetes-sigs)成员,并担任 Karmada、kubean 和 cloudtty 项目的维护者。此外,他还是 CNCF HAMi 项目的共同发起人和维护者,GitHub ID 为 wawa0210。
Yu Yin: 产品负责人 @dynamia.ai | 开源维护员 @HAMi | 在 Kubernetes 上推动 GPU 虚拟化和人工智能基础设施创新
Yu Yin 是 dynamia.ai 的产品负责人,同时也是 HAMi 的核心维护者,HAMi 是 Kubernetes 上 GPU 虚拟化和异构计算的开源项目。凭借在构建人工智能基础架构方面的实践经验,Yu 主要致力于为多架构环境实现可扩展的 GPU 共享、设备池和智能调度。他曾帮助物流、电信和金融领域的企业用户在生产中采用异构资源管理。同时,余先生也是中国开源应用的积极倡导者,并领导着 HAMi 社区的国际化工作。