我們正在招募一名資深存儲與數(shù)據(jù)運(yùn)維專家,負(fù)責(zé)設(shè)計(jì)、運(yùn)維和優(yōu)化智算中心的高性能存儲架構(gòu)(GPFS、Lustre)及混合存儲體系(GlusterFS、對象存儲等)。您將確保存儲系統(tǒng)高效支撐AI訓(xùn)練、大規(guī)模數(shù)據(jù)分析等核心業(yè)務(wù),同時(shí)推動存儲性能調(diào)優(yōu)、智能化運(yùn)維及跨技術(shù)棧協(xié)同,保障數(shù)據(jù)服務(wù)的穩(wěn)定性、高吞吐與低延遲。
??主要職責(zé):??
- ??高性能存儲管理??:
- 部署、維護(hù)及調(diào)優(yōu)GPFS、Lustre等高性能并行文件系統(tǒng),解決AI分布式訓(xùn)練中的高并發(fā)I/O性能瓶頸。
- 設(shè)計(jì)混合存儲架構(gòu)(塊/文件/對象存儲),管理GlusterFS分布式存儲、對象存儲(如Ceph S3)的容量規(guī)劃與數(shù)據(jù)分層策略。
- ??存儲自動化與監(jiān)控??:
- 開發(fā)自動化工具管理存儲集群生命周期(擴(kuò)容、故障自愈、負(fù)載均衡),利用Prometheus/Grafana構(gòu)建實(shí)時(shí)監(jiān)控體系,實(shí)現(xiàn)性能預(yù)警與根因分析。
- 結(jié)合AI工具分析存儲日志,預(yù)測硬件故障或性能波動,優(yōu)化存儲資源調(diào)度策略。
- ??跨領(lǐng)域協(xié)同??:
- 與AI算法團(tuán)隊(duì)協(xié)作,優(yōu)化訓(xùn)練數(shù)據(jù)集在GPFS/Lustre上的存儲布局,提升大規(guī)模模型訓(xùn)練效率。
- ??容災(zāi)與安全??:
- 制定GPFS/Lustre跨集群容災(zāi)方案,設(shè)計(jì)對象存儲數(shù)據(jù)冗余策略,保障PB級數(shù)據(jù)安全性與業(yè)務(wù)連續(xù)性。
- 參與7×24值班輪換,快速響應(yīng)存儲相關(guān)緊急故障。
??任職資格:??
- ??必備條件??:
- 計(jì)算機(jī)科學(xué)、存儲工程或相關(guān)領(lǐng)域本科及以上學(xué)歷,1年以上高性能存儲系統(tǒng)(GPFS/Lustre)運(yùn)維經(jīng)驗(yàn)。
- 了解GPFS/Lustre架構(gòu)設(shè)計(jì)、參數(shù)調(diào)優(yōu)及故障排查,熟悉并行文件系統(tǒng)在AI/HPC場景下的性能優(yōu)化方法。
- 了解GlusterFS等分布式存儲技術(shù),具備對象存儲(如AWS S3、MinIO)集成管理經(jīng)驗(yàn)。
- 熟練使用Python/Go開發(fā)存儲自動化腳本,掌握Ansible/Terraform等IaC工具。
- 熟悉存儲硬件生態(tài)(如全閃存陣列、NVMe-oF協(xié)議)及網(wǎng)絡(luò)優(yōu)化(InfiniBand/RoCE)。
- ??優(yōu)先條件??:
- 具有IBM Spectrum Scale(GPFS)或Lustre官方認(rèn)證,或超算中心存儲運(yùn)維背景。
- 熟悉AI訓(xùn)練數(shù)據(jù)流水線(如TensorFlow/PyTorch數(shù)據(jù)集加載優(yōu)化)或向量數(shù)據(jù)庫存儲方案。
- 具備存儲性能分析工具經(jīng)驗(yàn)(如GPFS Monitoring、Lustre Monitoring Tool)。
- 了解存儲與計(jì)算分離架構(gòu),或有GPU加速存儲讀取實(shí)踐經(jīng)驗(yàn)。
??我們提供:??
- 參與千億參數(shù)大模型訓(xùn)練、多模態(tài)AI研發(fā)等前沿場景的存儲系統(tǒng)建設(shè)。
- 直面EB級數(shù)據(jù)規(guī)模和百GB/s級吞吐挑戰(zhàn)的技術(shù)成長環(huán)境。
如果您對此職位感興趣,請?zhí)峤荒暮啔v和求職信進(jìn)行申請。我們期待您的回音!