招聘對象:2026 年畢業(yè)的本科及以上應屆生(計算機科學、人工智能、軟件工程等相關(guān)專業(yè))
【崗位職責】
1.負責編制、審核AI算力集群硬件設(shè)備配置方案,編制IT總體設(shè)計方案及部署實施方案;
2.負責算力硬件設(shè)備的上架、部署、測試、配置與故障檢測;
3.負責算力集群的網(wǎng)絡規(guī)劃設(shè)計與實施,維護、優(yōu)化集群的標準化配置基線;
4.負責算力集群ROCE、InfiniBand網(wǎng)絡的配置、調(diào)優(yōu)與性能監(jiān)控,確保高帶寬、低延遲通信性能;
5.負責國產(chǎn)化高性能硬件設(shè)備(如國產(chǎn)CPU、GPU、網(wǎng)絡與存儲設(shè)備等)的基礎(chǔ)配置與測試驗證;
6.參與AI算力資源池的構(gòu)建與管理,支持AI模型訓練、推理及高性能計算任務的資源調(diào)度;
【任職要求】
1.學歷背景:計算機科學、人工智能、軟件工程等相關(guān)專業(yè),2026年畢業(yè)的本科及以上學歷;
2.熟悉服務器、網(wǎng)絡及存儲設(shè)備的安裝、配置與維護,具備扎實的Linux系統(tǒng)運維能力;
3.熟悉GPU服務器體系結(jié)構(gòu),了解NVIDIA、華為昇騰、寒武紀等主流算力架構(gòu)及GPU加速卡特性;
4.熟悉ROCE、InfiniBand網(wǎng)絡與調(diào)優(yōu)方法,掌握RDMA通信原理及網(wǎng)絡性能監(jiān)測工具;
5.熟悉CUDA、cuDNN、NCCL等AI計算框架底層組件,具備PyTorch、TensorFlow等深度學習框架運行環(huán)境配置經(jīng)驗;
6.熟悉國產(chǎn)化硬件與操作系統(tǒng)的基礎(chǔ)配置與兼容性調(diào)優(yōu)。