返回 职位详情 登录/注册
AI智算集群运维监控与算力调度平台研发专家
3-6万元/月
定位 杭州西湖区阿里巴巴云谷园区阿里巴巴云谷园区
更新 2025-12-15 02:15:54 浏览 612
职位详情
Java 5-10年 Java · C++ · Golang · Python
职位描述
1.构建灵骏监管控系统的核心能力,持续提升客户在云环境使用灵骏智算集群产品的自动化与智能化水平。
2.打造智算集群的库存管理、节点调度、性能分析、故障自动处理及租户运维等关键功能体系,不断增强产品技术竞争力。
3.完善系统高可用架构,涵盖管控组件故障自动识别、自愈机制、弹性容灾能力以及云原生技术的实践落地,保障服务连续性与系统稳定运行。
4.设计异构算力统一管控与资源调度平台,持续优化集群资源利用效率,降低整体计算开销。
5.跟进行业前沿技术动态,重点关注AI智算、云原生及智能运维方向,结合实际业务场景推动技术创新应用。
6.本岗位需承担值班任务,依据服务级别协议(SLA)要求及时响应客户需求,推进问题闭环解决,提升客户满意度。

职位要求
1.具备5年以上大规模分布式系统设计与开发经验,曾独立主导含多个模块的子系统建设,包括接口规范制定、架构设计及核心分布式技术方案的落地实施。
2.编程基础扎实,熟练掌握数据结构与算法,精通Golang/Java/Python/C++中至少一门编程语言。
3.系统工程能力突出,具备强烈的线上稳定性意识,对复杂系统有良好的技术洞察力和丰富的故障定位经验;具备线上监控体系、变更流程设计与研发背景者优先考虑。
4.业务理解能力强,擅长抽象建模,逻辑清晰,善于独立分析并解决复杂问题,有主导完整技术产品项目经历者优先。
5.具备较强的复杂项目管理能力,有担任项目负责人或研发团队对接人经验者优先。
6.具备良好协作精神,有实际或虚拟团队管理经验并带领成员完成技术目标者优先。
7.熟悉AI框架、云原生架构、微服务设计理念及常用设计模式者优先。
公司信息
阿里云计算有限公司
明细
浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室
万州人才网温馨提示
求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
相似职位
很抱歉,暂无相似职位!