1、根據(jù)客戶需求選型算力標(biāo)準(zhǔn),確保性能、穩(wěn)定性、成本三平衡;
2、設(shè)計(jì)并實(shí)現(xiàn)算力調(diào)度策略與配額管理機(jī)制,持續(xù)提升集群利用率與作業(yè)排隊(duì)效率;
5、建立端到端成本監(jiān)控體系,定期輸出資源使用與優(yōu)化報(bào)告,通過(guò)算法加速、模型壓縮、分布式訓(xùn)練改造等手段降低單位算力成本
6、沉淀算力需求評(píng)估、交付、運(yùn)營(yíng)流程與文檔,賦能業(yè)務(wù)團(tuán)隊(duì)高效、合規(guī)使用智算資源;
二、任職要求
1、本科及以上學(xué)歷,計(jì)算機(jī)、軟件工程、電子信息、自動(dòng)化等相關(guān)專業(yè);
2、3 年以上智算(AI/HPC)項(xiàng)目經(jīng)驗(yàn),完整主導(dǎo)過(guò)千張 GPU 卡或以上規(guī)模集群的規(guī)劃、交付或優(yōu)化項(xiàng)目;
3、熟悉主流 GPU(NVIDIA A100/H100、AMD MI 系列)架構(gòu)、性能調(diào)優(yōu)及故障定位,掌握 CUDA/ROCm 生態(tài)工具;
4、理解分布式訓(xùn)練(DDP、DeepSpeed、Megatron)與推理加速(TensorRT、ONNXRuntime、vLLM)原理,具備實(shí)際性能調(diào)優(yōu)案例;
5、熟悉 Kubernetes、Slurm、YARN 等至少一種資源調(diào)度框架,有二次開(kāi)發(fā)或插件擴(kuò)展經(jīng)驗(yàn)者優(yōu)先;