外包百度客戶方,薪資預(yù)算20.5k,過往薪資漲幅不能超過30%
職責(zé):
1.精通GPU服務(wù)器。 2..GPU集群架構(gòu)設(shè)計(jì):主導(dǎo)基于NVIDIA /A800/H100/H20等GPU服務(wù)器的算力方案設(shè)計(jì),通過NVLink/NVSwitch實(shí)現(xiàn)單機(jī)8卡全互聯(lián)拓?fù)洌⒁?guī)劃IB/Roce多機(jī)集群網(wǎng)絡(luò)架構(gòu),滿足千億參數(shù)大模型訓(xùn)練需求。
2.RDMA網(wǎng)絡(luò)優(yōu)化:部署IB/RoCE網(wǎng)絡(luò)協(xié)議棧,利用MPI和NCCL庫(kù)優(yōu)化All-Reduce通信效率,支撐分布式訓(xùn)練任務(wù)。
3.國(guó)產(chǎn)化方案落地:適配昇騰910A/910B/海光DCU/阿里PPU等國(guó)產(chǎn)GPU,設(shè)計(jì)混合RoCE組網(wǎng)方案,解決異構(gòu)算力池的兼容性問題,完成從NVIDIA生態(tài)到國(guó)產(chǎn)芯片的技術(shù)遷移路徑規(guī)劃。
4.熟悉數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu),包括但不限于以太網(wǎng)和RDMA網(wǎng)絡(luò)。
任職資格:
2.統(tǒng)招本科及以上學(xué)歷并取得相應(yīng)學(xué)位,大數(shù)據(jù)、人工智能、計(jì)算機(jī)、通信等相關(guān)專業(yè)畢業(yè)。
3.3年及以上算力/AI/云計(jì)算領(lǐng)域售前或解決方案經(jīng)驗(yàn)。
4.熟悉智算中心、千卡GPU數(shù)據(jù)中心規(guī)劃或HPC/AI集群設(shè)計(jì)(如NVIDIA/華為昇騰)。
5.精通算力集群架構(gòu)(CPU/GPU/NPU)、高速網(wǎng)絡(luò)(InfiniBand/RoCE)及調(diào)度工具(Slurm/K8s)。
6.持有CCNA/AWS架構(gòu)師認(rèn)證者優(yōu)先。
7.有算力投標(biāo)經(jīng)驗(yàn)者優(yōu)先。
8.有大型智算中心建設(shè)經(jīng)驗(yàn)者優(yōu)先。