日日噜夜夜草|一级黄色录像高清版|调教白富美加勒比久久|亚洲欧洲精品婷婷|日韩综合无码色色|日韩精品一区妖精视频|亚洲无码中文字幕hd|99亚洲思思丝袜|手机看片国产精品大胆亚洲|成人无码视频一区二区在线播放

更新于 11月10日

智算中心運(yùn)維總監(jiān)

2-4萬(wàn)
  • 北京海淀區(qū)
  • 10年以上
  • 本科
  • 全職
  • 招1人

職位描述

云計(jì)算/大數(shù)據(jù)
一、核心職責(zé)
1.戰(zhàn)略與規(guī)劃
制定智算中心的技術(shù)發(fā)展路線圖,主導(dǎo)架構(gòu)演進(jìn),以滿足大規(guī)模模型訓(xùn)練和推理的苛刻需求。構(gòu)建并持續(xù)優(yōu)化符合國(guó)際標(biāo)準(zhǔn)(如
Uptime Tier)和國(guó)內(nèi)規(guī)范(如GB/T50174)的智算中心運(yùn)維體系。跟蹤AI基礎(chǔ)設(shè)施(如液冷、高速網(wǎng)絡(luò))和運(yùn)維技術(shù)(如
AlOps)的前沿動(dòng)態(tài),并推動(dòng)其應(yīng)用。
2.保障系統(tǒng)穩(wěn)定性
對(duì)智算中心全年穩(wěn)定運(yùn)行(SLA不低于99.95%)負(fù)最終責(zé)任,建立高效的7x24小時(shí)應(yīng)急響應(yīng)與故障處理機(jī)制。
高性能計(jì)算集群運(yùn)維:主導(dǎo)大規(guī)模AI計(jì)算集群(干臺(tái)服務(wù)器以上規(guī)模)的運(yùn)維,深度掌握高性能網(wǎng)絡(luò)(InfiniBand,.RoCE)的規(guī)
劃、性能調(diào)優(yōu)和故障排查。
3.大模型訓(xùn)練支持
熟悉大模型訓(xùn)練全流程,具備集群調(diào)度、斷點(diǎn)續(xù)訓(xùn)、訓(xùn)練性能優(yōu)化的能力,能快速定位并解決訓(xùn)練過(guò)程中的各類問(wèn)題。
4.基礎(chǔ)設(shè)施運(yùn)維
精通數(shù)據(jù)中心高壓/低壓配電、UPS、柴油發(fā)電機(jī)、暖通空調(diào)(精密空調(diào))
等關(guān)鍵基礎(chǔ)設(shè)施的運(yùn)行與維護(hù)。
5.自動(dòng)化與體系建設(shè)
推動(dòng)DevOps/MLOps2文化落地,構(gòu)建高度自動(dòng)化的運(yùn)維平臺(tái),覆蓋監(jiān)控、部署、發(fā)布、擴(kuò)縮容等環(huán)節(jié),提升運(yùn)維效率。建立和完善
包括監(jiān)控、告警、變更、事件管理等在內(nèi)的標(biāo)準(zhǔn)化運(yùn)維流程和制度。
6.運(yùn)維團(tuán)隊(duì)管理
負(fù)責(zé)運(yùn)維團(tuán)隊(duì)的組建、培養(yǎng)、績(jī)效考核與激勵(lì),打造具備高性能計(jì)算運(yùn)維能力的專業(yè)團(tuán)隊(duì)。與A研發(fā)團(tuán)隊(duì)緊密協(xié)作,深刻理解業(yè)務(wù)
需求,為大規(guī)模模型訓(xùn)練和推理任務(wù)提供穩(wěn)定、高效、經(jīng)濟(jì)的算力資源保障。
7.成本與資源管理
負(fù)責(zé)運(yùn)維預(yù)算的制定與控制,通過(guò)技術(shù)手段優(yōu)化資源利用率,實(shí)現(xiàn)成本效益最大化。
二、任職資格
1.工作經(jīng)驗(yàn)
本科及以上學(xué)歷,計(jì)算機(jī)、通信、電氣自動(dòng)化相關(guān)專業(yè)。10年以上中大型數(shù)據(jù)中心智算中心基礎(chǔ)設(shè)施或T系統(tǒng)運(yùn)維經(jīng)驗(yàn),其中至
少5年運(yùn)維總監(jiān)或同等職級(jí)的管理經(jīng)驗(yàn)。具備千臺(tái)服務(wù)器以上規(guī)模集群的運(yùn)維管理經(jīng)驗(yàn),有從0到1的智算中心項(xiàng)目規(guī)劃、建設(shè)及
交付經(jīng)驗(yàn)者尤佳。
2.核心技術(shù)能力
智算專項(xiàng)技能:深入理解大模型訓(xùn)練的關(guān)鍵流程、監(jiān)控點(diǎn)和性能瓶頸;精通高速計(jì)算網(wǎng)絡(luò)(InfiniBand)和分布式存儲(chǔ)系統(tǒng)。
深厚技術(shù)功底:深入理解Linux操作系統(tǒng)、TCP/IP協(xié)議棧;精通Kubernetes./Docker容器化技術(shù);熟練掌握至少一種腳本語(yǔ)言
(Shell/Python./Go)用于自動(dòng)化運(yùn)維。
基礎(chǔ)設(shè)施知識(shí):熟練掌握數(shù)據(jù)中心機(jī)房的國(guó)家標(biāo)準(zhǔn)、技術(shù)規(guī)范及Uptime、TL等管理體系。
云與混合架構(gòu):熟悉主流公有云平臺(tái),具備混合云或自建DC的架構(gòu)和管理經(jīng)驗(yàn)。
3.關(guān)鍵素質(zhì)
卓越的領(lǐng)導(dǎo)力與戰(zhàn)略眼光:能夠制定清晰的團(tuán)隊(duì)目標(biāo),有效激勵(lì)團(tuán)隊(duì)成員,并具備出色的跨部門溝通協(xié)調(diào)能力。
強(qiáng)大的抗壓與問(wèn)題解決能力:能在高壓下保持冷靜,對(duì)解決復(fù)雜技術(shù)難題有強(qiáng)烈熱情。
出色的成本意識(shí)與商業(yè)思維:能夠精準(zhǔn)平衡技術(shù)投入與業(yè)務(wù)產(chǎn)出,具備較強(qiáng)的風(fēng)險(xiǎn)識(shí)別與控制能力
4.優(yōu)先考慮條件
頭部互聯(lián)網(wǎng)/云廠商(如騰訊智算云、阿里智算云、華為智算云、京東智算云等)、知名數(shù)據(jù)中心服務(wù)商(如世紀(jì)互聯(lián)、首都在
線、數(shù)據(jù)港等)、知名AI公司(如商湯科技、曠視科技、依圖科技、云從科技、第四范式、智譜Al、DeepSeek等),并直接參與
過(guò)其智算平臺(tái)的建設(shè)或運(yùn)維。
持有注冊(cè)電氣工程師、PMP、建造師、高級(jí)電工證等行業(yè)認(rèn)證者優(yōu)先,有成功主導(dǎo)過(guò)大型智算中心項(xiàng)目通過(guò)國(guó)內(nèi)外權(quán)威認(rèn)證(如
Uptime Tier)經(jīng)驗(yàn)者優(yōu)先。
三、工作時(shí)間
9:30-19:00,雙休

工作地點(diǎn)

北京海淀區(qū)聯(lián)強(qiáng)國(guó)際5層

職位發(fā)布者

楚忠鳳/人事經(jīng)理

立即溝通
公司Logo北京亞博威科技有限公司
自2008年創(chuàng)立以來(lái),亞博威始終牢記自己的使命:用心提供IT運(yùn)維解決方案,確??蛻粝到y(tǒng)穩(wěn)定與業(yè)務(wù)連續(xù)性。在您的見(jiàn)證和引領(lǐng)下,亞博威從早期的小型機(jī)、服務(wù)器運(yùn)維服務(wù)起步,逐步成長(zhǎng)為覆蓋傳統(tǒng)維保、信創(chuàng)維保、智算維保及系統(tǒng)集成的綜合服務(wù)商。2011-2013年成為全國(guó)性綜合備件服務(wù)商;2014-2018年維保業(yè)務(wù)拓展至政府、醫(yī)療、教育等行業(yè),并通過(guò)ISO20000、ISO27001、ISO9001等國(guó)際質(zhì)量體系認(rèn)證;2022年已擁有CMMI三級(jí)、ITSS運(yùn)維二級(jí)、系統(tǒng)集成二級(jí)、信息技術(shù)服務(wù)管理體系、信息安全管理體系、高新技術(shù)企業(yè)等多項(xiàng)專業(yè)認(rèn)證;2023年成立子公司博威智算,開(kāi)始布局GPU服務(wù)器和智算維保服務(wù)。我們的服務(wù)優(yōu)勢(shì)源于“人員、技術(shù)、備件、流程”四大核心能力。亞博威在全國(guó)15個(gè)重點(diǎn)城市(北京、上海、廣州、深圳等)設(shè)立分支機(jī)構(gòu),擁有85名全職員工(66%以上為項(xiàng)目經(jīng)理與運(yùn)維專家)和1000多名兼職運(yùn)維工程師,他們平均運(yùn)維經(jīng)驗(yàn)超過(guò)4年,本科率超80%,能快速響應(yīng)各類算力中心系統(tǒng)故障。通過(guò)高效的ITSM系統(tǒng)和規(guī)范化服務(wù)流程,確??蛻粝到y(tǒng)故障恢復(fù)達(dá)標(biāo)率100%,并能提供“零中斷遷移”和“零感知擴(kuò)容”。同時(shí),在10多個(gè)城市建立大型備件倉(cāng),儲(chǔ)備超10萬(wàn)SKU。為了保障GPU服務(wù)器的運(yùn)維服務(wù),建立北京GPU芯片級(jí)維修中心和深圳GPU改配中心。到2025年為止,我們已累計(jì)服務(wù)超過(guò)5000多家客戶,涉及電信、IT、金融、政府、能源、制造、互聯(lián)網(wǎng)等行業(yè),服務(wù)設(shè)備數(shù)量近10萬(wàn)臺(tái),設(shè)備種類過(guò)萬(wàn)種。在原廠供應(yīng)商、系統(tǒng)集成商、交付服務(wù)商伙伴們的支持下,向算力用戶們交出了滿意的答卷。展望未來(lái),亞博威將持續(xù)打造算力中心運(yùn)維一體化解決方案,為客戶提供信創(chuàng)、智算維保、備件租售、設(shè)備租售、系統(tǒng)集成等服務(wù)。通過(guò)構(gòu)建強(qiáng)健的運(yùn)維工程師團(tuán)隊(duì)、維修備件倉(cāng)網(wǎng)、全球化原廠設(shè)備供應(yīng)鏈,逐步成為算力運(yùn)維服務(wù)的領(lǐng)導(dǎo)者,為您的數(shù)智化轉(zhuǎn)型筑牢基礎(chǔ)設(shè)施底座。
公司主頁(yè)