以云原生方式最大化异构 GPU 利用率:释放 HAMi 的强大能力
Xiao Zhang
中文演讲 #ai随着 AI 的日益普及,Kubernetes 已成为事实上的 AI 基础设施标准。然而,包含多种 AI 设备(如 NVIDIA、Intel、华为昇腾、海光、沐曦、寒武纪、天数智芯、燧原等)的集群数量不断增加,带来了重大挑战。AI 设备成本高昂,如何提高资源利用率?如何更好地与 K8s 集群集成?如何统一管理异构 AI 设备、支持灵活调度策略并实现可观测性,都面临诸多挑战。HAMi 项目应运而生。本次演讲内容包括:
- Kubernetes 如何管理异构 AI 设备(统一调度、可观测性)
- 通过 GPU 共享提升设备利用率
- 在 GPU 共享场景下保障高优先级任务的 QoS
- 支持灵活的 GPU 调度策略(NUMA 亲和/反亲和、装箱/分散等)
- 与其他项目的集成(如 Volcano、scheduler-plugin 等)
- 生产级用户的真实案例分享
- 当前仍面临的挑战与未来规划
演讲嘉宾:

张骁是 dynamia.ai 创始人(专注于基础设施、AI、多集群管理、集群生命周期管理(LCM)和开放容器倡议(OCI))。他同时也是社区的活跃贡献者和云原生技术爱好者,目前是 Kubernetes/Kubernetes 特别兴趣小组(Kubernetes-sigs)成员,并担任 Karmada、kubean 和 cloudtty 项目的维护者。此外,他还是 CNCF HAMi 项目的共同发起人和维护者,GitHub ID 为 wawa0210。