智算中心解决方案专家(GPU集群方向)
2.2-2.5万元/月
更新 2025-12-13 18:41:13
浏览 863
职位详情
售前技术支持
3-5年
大模型 · GPU · 其他类型SaaS/PaaS
1.精通GPU服务器技术。
2.GPU集群架构设计:主导基于NVIDIA/A800/H100/H20等GPU服务器的算力方案规划,通过NVLink/NVSwitch实现单机8卡全互联结构,并设计IB/RoCE多机集群网络架构,满足千亿参数大模型训练需求。
3.RDMA网络优化:实施IB/RoCE网络协议栈,结合MPI与NCCL库优化All-Reduce通信性能,保障分布式训练任务高效运行。
4.国产化方案实施:适配昇腾910A/910B、海光DCU、阿里PPU等国产GPU设备,构建混合RoCE组网架构,解决异构算力资源的兼容问题,完成从NVIDIA生态向国产芯片的技术迁移路径设计。
5.熟悉数据中心网络体系,涵盖以太网及RDMA网络技术。
任职资格:
1.全日制本科及以上学历并取得相应学位,大数据、人工智能、计算机、通信等相关专业毕业。
2.3年及以上算力/AI/云计算领域售前或解决方案工作经验。
3.熟悉智算中心、千卡GPU数据中心规划或HPC/AI集群设计(如NVIDIA/华为昇腾)。
4.精通算力集群架构(CPU/GPU/NPU)、高速网络(InfiniBand/RoCE)及调度工具(Slurm/K8s)。
5.持有CCNA/AWS架构师认证者优先。
6.具备算力项目投标经验者优先。
7.有大型智算中心建设实践经验者优先
2.GPU集群架构设计:主导基于NVIDIA/A800/H100/H20等GPU服务器的算力方案规划,通过NVLink/NVSwitch实现单机8卡全互联结构,并设计IB/RoCE多机集群网络架构,满足千亿参数大模型训练需求。
3.RDMA网络优化:实施IB/RoCE网络协议栈,结合MPI与NCCL库优化All-Reduce通信性能,保障分布式训练任务高效运行。
4.国产化方案实施:适配昇腾910A/910B、海光DCU、阿里PPU等国产GPU设备,构建混合RoCE组网架构,解决异构算力资源的兼容问题,完成从NVIDIA生态向国产芯片的技术迁移路径设计。
5.熟悉数据中心网络体系,涵盖以太网及RDMA网络技术。
任职资格:
1.全日制本科及以上学历并取得相应学位,大数据、人工智能、计算机、通信等相关专业毕业。
2.3年及以上算力/AI/云计算领域售前或解决方案工作经验。
3.熟悉智算中心、千卡GPU数据中心规划或HPC/AI集群设计(如NVIDIA/华为昇腾)。
4.精通算力集群架构(CPU/GPU/NPU)、高速网络(InfiniBand/RoCE)及调度工具(Slurm/K8s)。
5.持有CCNA/AWS架构师认证者优先。
6.具备算力项目投标经验者优先。
7.有大型智算中心建设实践经验者优先
相似职位
很抱歉,暂无相似职位!