一、核心職責(zé)
1.戰(zhàn)略與規(guī)劃
制定智算中心的技術(shù)發(fā)展路線圖,主導(dǎo)架構(gòu)演進(jìn),以滿足大規(guī)模模型訓(xùn)練和推理的苛刻需求。構(gòu)建并持續(xù)優(yōu)化符合國(guó)際標(biāo)準(zhǔn)(如
Uptime Tier)和國(guó)內(nèi)規(guī)范(如GB/T50174)的智算中心運(yùn)維體系。跟蹤AI基礎(chǔ)設(shè)施(如液冷、高速網(wǎng)絡(luò))和運(yùn)維技術(shù)(如
AlOps)的前沿動(dòng)態(tài),并推動(dòng)其應(yīng)用。
2.保障系統(tǒng)穩(wěn)定性
對(duì)智算中心全年穩(wěn)定運(yùn)行(SLA不低于99.95%)負(fù)最終責(zé)任,建立高效的7x24小時(shí)應(yīng)急響應(yīng)與故障處理機(jī)制。
高性能計(jì)算集群運(yùn)維:主導(dǎo)大規(guī)模AI計(jì)算集群(干臺(tái)服務(wù)器以上規(guī)模)的運(yùn)維,深度掌握高性能網(wǎng)絡(luò)(InfiniBand,.RoCE)的規(guī)
劃、性能調(diào)優(yōu)和故障排查。
3.大模型訓(xùn)練支持
熟悉大模型訓(xùn)練全流程,具備集群調(diào)度、斷點(diǎn)續(xù)訓(xùn)、訓(xùn)練性能優(yōu)化的能力,能快速定位并解決訓(xùn)練過(guò)程中的各類問(wèn)題。
4.基礎(chǔ)設(shè)施運(yùn)維
精通數(shù)據(jù)中心高壓/低壓配電、UPS、柴油發(fā)電機(jī)、暖通空調(diào)(精密空調(diào))
等關(guān)鍵基礎(chǔ)設(shè)施的運(yùn)行與維護(hù)。
5.自動(dòng)化與體系建設(shè)
推動(dòng)DevOps/MLOps2文化落地,構(gòu)建高度自動(dòng)化的運(yùn)維平臺(tái),覆蓋監(jiān)控、部署、發(fā)布、擴(kuò)縮容等環(huán)節(jié),提升運(yùn)維效率。建立和完善
包括監(jiān)控、告警、變更、事件管理等在內(nèi)的標(biāo)準(zhǔn)化運(yùn)維流程和制度。
6.運(yùn)維團(tuán)隊(duì)管理
負(fù)責(zé)運(yùn)維團(tuán)隊(duì)的組建、培養(yǎng)、績(jī)效考核與激勵(lì),打造具備高性能計(jì)算運(yùn)維能力的專業(yè)團(tuán)隊(duì)。與A研發(fā)團(tuán)隊(duì)緊密協(xié)作,深刻理解業(yè)務(wù)
需求,為大規(guī)模模型訓(xùn)練和推理任務(wù)提供穩(wěn)定、高效、經(jīng)濟(jì)的算力資源保障。
7.成本與資源管理
負(fù)責(zé)運(yùn)維預(yù)算的制定與控制,通過(guò)技術(shù)手段優(yōu)化資源利用率,實(shí)現(xiàn)成本效益最大化。
二、任職資格
1.工作經(jīng)驗(yàn)
本科及以上學(xué)歷,計(jì)算機(jī)、通信、電氣自動(dòng)化相關(guān)專業(yè)。10年以上中大型數(shù)據(jù)中心智算中心基礎(chǔ)設(shè)施或T系統(tǒng)運(yùn)維經(jīng)驗(yàn),其中至
少5年運(yùn)維總監(jiān)或同等職級(jí)的管理經(jīng)驗(yàn)。具備千臺(tái)服務(wù)器以上規(guī)模集群的運(yùn)維管理經(jīng)驗(yàn),有從0到1的智算中心項(xiàng)目規(guī)劃、建設(shè)及
交付經(jīng)驗(yàn)者尤佳。
2.核心技術(shù)能力
智算專項(xiàng)技能:深入理解大模型訓(xùn)練的關(guān)鍵流程、監(jiān)控點(diǎn)和性能瓶頸;精通高速計(jì)算網(wǎng)絡(luò)(InfiniBand)和分布式存儲(chǔ)系統(tǒng)。
深厚技術(shù)功底:深入理解Linux操作系統(tǒng)、TCP/IP協(xié)議棧;精通Kubernetes./Docker容器化技術(shù);熟練掌握至少一種腳本語(yǔ)言
(Shell/Python./Go)用于自動(dòng)化運(yùn)維。
基礎(chǔ)設(shè)施知識(shí):熟練掌握數(shù)據(jù)中心機(jī)房的國(guó)家標(biāo)準(zhǔn)、技術(shù)規(guī)范及Uptime、TL等管理體系。
云與混合架構(gòu):熟悉主流公有云平臺(tái),具備混合云或自建DC的架構(gòu)和管理經(jīng)驗(yàn)。
3.關(guān)鍵素質(zhì)
卓越的領(lǐng)導(dǎo)力與戰(zhàn)略眼光:能夠制定清晰的團(tuán)隊(duì)目標(biāo),有效激勵(lì)團(tuán)隊(duì)成員,并具備出色的跨部門溝通協(xié)調(diào)能力。
強(qiáng)大的抗壓與問(wèn)題解決能力:能在高壓下保持冷靜,對(duì)解決復(fù)雜技術(shù)難題有強(qiáng)烈熱情。
出色的成本意識(shí)與商業(yè)思維:能夠精準(zhǔn)平衡技術(shù)投入與業(yè)務(wù)產(chǎn)出,具備較強(qiáng)的風(fēng)險(xiǎn)識(shí)別與控制能力
4.優(yōu)先考慮條件
頭部互聯(lián)網(wǎng)/云廠商(如騰訊智算云、阿里智算云、華為智算云、京東智算云等)、知名數(shù)據(jù)中心服務(wù)商(如世紀(jì)互聯(lián)、首都在
線、數(shù)據(jù)港等)、知名AI公司(如商湯科技、曠視科技、依圖科技、云從科技、第四范式、智譜Al、DeepSeek等),并直接參與
過(guò)其智算平臺(tái)的建設(shè)或運(yùn)維。
持有注冊(cè)電氣工程師、PMP、建造師、高級(jí)電工證等行業(yè)認(rèn)證者優(yōu)先,有成功主導(dǎo)過(guò)大型智算中心項(xiàng)目通過(guò)國(guó)內(nèi)外權(quán)威認(rèn)證(如
Uptime Tier)經(jīng)驗(yàn)者優(yōu)先。
三、工作時(shí)間