崗位職責:
搭建AI平臺底層基礎設施,保障資源調度與容器化部署,支撐大規(guī)模AI訓練與推理任務的高效運行。
1.設計基于OpenStack/Kubernetes的混合云平臺,支持跨數(shù)據(jù)中心資源調度
2.構建多集群管理方案,實現(xiàn)AI算力資源(CPU/GPU/NPU)的統(tǒng)一納管與動態(tài)分配
3.設計Ceph分布式存儲集群,優(yōu)化AI訓練數(shù)據(jù)集訪問性能
4.優(yōu)化網(wǎng)絡虛擬化技術,提升AI模型訓練/推理吞吐量
5.開發(fā)智能調度算法,動態(tài)平衡計算資源與任務優(yōu)先級
6.優(yōu)化容器編排及自動化運維方案
7.實現(xiàn)AI算力資源的動態(tài)分配與監(jiān)控
任職要求:
1.5年以上云計算開發(fā)經(jīng)驗,本科及以上學歷,計算機相關專業(yè)
2.精通OpenStack/Kubernetes的部署及使用,有解決生產環(huán)境問題的經(jīng)驗
3.熟練掌握Linux環(huán)境編程,熟練掌握Python及相關衍生技術棧
4.熟悉分布式存儲(如Ceph)及網(wǎng)絡虛擬化技術
5.深入理解Kubernetes調度器、CRI運行時等核心模塊源碼
6.掌握OpenStack Nova/Neutron組件二次開發(fā),熟悉虛擬化技術(KVM/QEMU)
7.有AI算力池建設經(jīng)驗(如GPU資源池化、彈性訓練框架集成)
8.熟悉國產化云平臺(如OpenEuler+KubeEdge)適配改造