返回 职位详情 登录/注册
深度学习训练系统研发专家-北京,杭州
4-7万元/月
定位 北京朝阳区阿里巴巴·朝阳科技园C
更新 2025-12-16 14:30:22 浏览 916
职位详情
高性能计算工程师 经验不限 机器学习 · 大模型算法 · 模型加速/性能优化 · 多模态算法 · C/C++ · Python · 分布式训练
岗位职责:
●负责PAI平台深度学习框架的技术研发,涵盖MoE模型的大规模训练框架、多模态训练体系、RLHF训练架构等方向,支撑通义实验室、阿里集团等多个业务场景;参与基模型Pretrain、SFT等关键阶段的训练性能调优工作;
●专注于提升各阶段模型训练负载的极致吞吐能力,能系统性分析不同模型在训练过程中的耗时瓶颈,并提出针对性优化方案,包括但不限于算子层面优化、通信机制改进、分布式策略调整等技术手段;
●主导超大规模训练任务的稳定性架构设计,通过多种技术路径提升训练任务的实际产出效率,建设高效的故障识别与自动恢复机制,保障大规模训练流程的平稳顺畅运行;
●参与训练框架对多种硬件后端的适配与性能优化工作。

职位描述
●具备扎实的工程实现能力,良好的代码规范,熟练掌握Python/C++编程语言及常见设计模式,拥有复杂软件系统的架构设计、开发与调试经验;
●理解深度学习基础理论,熟悉Transformer结构原理,了解主流大语言模型和多模态模型的基本架构与特性;
●熟练使用PyTorch等主流深度学习框架,深入理解Megatron、DeepSpeed、JAX等训练框架的设计差异与核心技术细节;
●具有良好的沟通表达能力和团队协作精神,具备持续学习意愿和技术深挖的耐心与能力;
●掌握计算机体系结构相关基础知识,在异构计算优化(GPGPU/x86/ARM)领域有实践经验,熟悉高性能网络通信优化方法,具备分布式训练策略调优背景;
公司信息
阿里云计算有限公司
明细
浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室
万州人才网温馨提示
求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
相似职位
很抱歉,暂无相似职位!