AI智算集群运维与算力调度平台开发-北/
3-6万元/月
更新 2025-12-16 14:39:22
浏览 456
职位详情
Java
5-10年
Golang · Java · 节点调度 · C++ · 分布式经验 · SpringCloud · MySQL · Spring · 集群 · Python
职位描述
1.打造灵骏监管控系统的核心功能模块,持续优化客户在云环境使用灵骏智算集群产品的自动化与智能化水平。
2.构建涵盖智算集群库存管理、节点调度、性能监控、故障自愈、租户运维支持等功能的完整体系,不断增强灵骏智算集群产品的市场竞争力。
3.完善系统高可用架构,推进管控组件异常自动识别、故障恢复、弹性容灾机制建设,推动云原生技术的工程化落地,确保服务连续性与系统稳定运行。
4.设计并实现异构算力资源的统一纳管与智能调度平台,持续提升集群资源利用效率,降低整体计算开销。
5.跟进行业前沿技术动态,聚焦AI智算、云原生及智能运维方向,结合实际业务需求开展技术创新与应用实践。
6.本岗位需承担值班响应职责,在服务级别协议(SLA)规定时限内完成客户问题响应,协同推进问题闭环,提升客户服务满意度。
职位要求
1.具备5年以上大规模分布式系统设计与开发经验,曾独立主导多模块业务子系统的建设,包括接口规范制定、架构方案设计及关键分布式技术问题的解决方案落地。
2.编程基础扎实,熟练掌握数据结构与算法,精通Golang/Java/Python/C++中至少一门编程语言。
3.具备较强的系统工程能力,重视线上稳定性,对复杂系统的运行状态有敏锐洞察力,具备丰富的故障诊断与处理经验;有线上监控体系、变更流程体系建设经验者优先。
4.业务理解能力强,具备优秀的系统抽象与架构设计能力,逻辑清晰,善于独立分析和解决复杂问题,有主导端到端技术产品项目经历者优先。
5.具备复杂项目统筹管理能力,有担任项目负责人或研发团队对接人经验者优先。
6.具备良好的团队协作意识,有实线或虚线带领技术人员完成项目交付的经验者优先。
7.熟悉主流AI框架、云原生架构、微服务设计理念及相关设计模式者优先。
1.打造灵骏监管控系统的核心功能模块,持续优化客户在云环境使用灵骏智算集群产品的自动化与智能化水平。
2.构建涵盖智算集群库存管理、节点调度、性能监控、故障自愈、租户运维支持等功能的完整体系,不断增强灵骏智算集群产品的市场竞争力。
3.完善系统高可用架构,推进管控组件异常自动识别、故障恢复、弹性容灾机制建设,推动云原生技术的工程化落地,确保服务连续性与系统稳定运行。
4.设计并实现异构算力资源的统一纳管与智能调度平台,持续提升集群资源利用效率,降低整体计算开销。
5.跟进行业前沿技术动态,聚焦AI智算、云原生及智能运维方向,结合实际业务需求开展技术创新与应用实践。
6.本岗位需承担值班响应职责,在服务级别协议(SLA)规定时限内完成客户问题响应,协同推进问题闭环,提升客户服务满意度。
职位要求
1.具备5年以上大规模分布式系统设计与开发经验,曾独立主导多模块业务子系统的建设,包括接口规范制定、架构方案设计及关键分布式技术问题的解决方案落地。
2.编程基础扎实,熟练掌握数据结构与算法,精通Golang/Java/Python/C++中至少一门编程语言。
3.具备较强的系统工程能力,重视线上稳定性,对复杂系统的运行状态有敏锐洞察力,具备丰富的故障诊断与处理经验;有线上监控体系、变更流程体系建设经验者优先。
4.业务理解能力强,具备优秀的系统抽象与架构设计能力,逻辑清晰,善于独立分析和解决复杂问题,有主导端到端技术产品项目经历者优先。
5.具备复杂项目统筹管理能力,有担任项目负责人或研发团队对接人经验者优先。
6.具备良好的团队协作意识,有实线或虚线带领技术人员完成项目交付的经验者优先。
7.熟悉主流AI框架、云原生架构、微服务设计理念及相关设计模式者优先。
相似职位
很抱歉,暂无相似职位!