1、負(fù)責(zé)根據(jù)客戶算力使用場(chǎng)景和需求,提供算力整體解決方案,包含硬件選型、網(wǎng)絡(luò)設(shè)計(jì)、平臺(tái)架構(gòu)、模型部署等。
2、負(fù)責(zé)平臺(tái)架構(gòu)規(guī)劃,主導(dǎo)算力平臺(tái)整體架構(gòu)設(shè)計(jì),結(jié)合業(yè)務(wù)需求制定中長(zhǎng)期技術(shù)路線圖,涵蓋算力資源、算力調(diào)度、存儲(chǔ)架構(gòu)、網(wǎng)絡(luò)拓?fù)涞群诵哪K,確保架構(gòu)具備高擴(kuò)展性、高可用性及成本合理性。?
3、負(fù)責(zé)技術(shù)方案設(shè)計(jì)與落地,智算核心技術(shù)選型(如算力選型、虛擬化、分布式訓(xùn)練框架、AI 模型優(yōu)化工具等),解決大模型訓(xùn)練中算力集群調(diào)度、數(shù)據(jù)并行 / 模型并行優(yōu)化等架構(gòu)級(jí)難題,保障 AI 業(yè)務(wù)高效運(yùn)行。
4、負(fù)責(zé)智算技術(shù)創(chuàng)新與預(yù)研,跟蹤智算領(lǐng)域前沿技術(shù)(如存算一體、AI 芯片架構(gòu)、大模型高效訓(xùn)練技術(shù)等),開(kāi)展技術(shù)預(yù)研與驗(yàn)證;
5、推動(dòng)架構(gòu)創(chuàng)新,引入 AI 算力優(yōu)化技術(shù)(如模型壓縮、量化加速),提升智算中心算力利用率與業(yè)務(wù)處理效率。
任職要求:
1、學(xué)歷與專業(yè)背景:計(jì)算機(jī)科學(xué)、電子工程、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、人工智能或相關(guān)領(lǐng)域的本科及以上學(xué)歷。
2、工作經(jīng)驗(yàn):擁有8-10年以上工作經(jīng)驗(yàn),有三年以上算力相關(guān)工作經(jīng)驗(yàn),有大規(guī)模算力集群的規(guī)劃、搭建、運(yùn)維或優(yōu)化方面的經(jīng)驗(yàn)。
3、硬件知識(shí):深入了解主流和國(guó)產(chǎn)化算力硬件,如 NVIDIA GPU、NPU 等,熟悉其架構(gòu)特性,包括 CUDA、CANN、RDMA 網(wǎng)絡(luò)等。能夠根據(jù)不同的應(yīng)用場(chǎng)景,合理選擇和配置硬件資源,確保算力系統(tǒng)的高效運(yùn)行。?
4、云計(jì)算平臺(tái):精通云計(jì)算平臺(tái)(如 AWS/Azure/ 阿里云)的算力服務(wù),如彈性計(jì)算、容器服務(wù)、Serverless 等。
5、分布式系統(tǒng)與調(diào)度框架:掌握分布式系統(tǒng)原理,熟悉常見(jiàn)的調(diào)度框架,如 Kubernetes、Slurm 等。
6、性能調(diào)優(yōu):具備豐富的性能調(diào)優(yōu)經(jīng)驗(yàn),能夠通過(guò)并行計(jì)算優(yōu)化、內(nèi)存 / 帶寬瓶頸分析等手段,提升算力系統(tǒng)的整體性能。?
7、編程語(yǔ)言:熟練掌握至少一種編程語(yǔ)言,如 Python、C++、Java 等,能夠運(yùn)用其進(jìn)行腳本編寫(xiě)、工具開(kāi)發(fā)和算法實(shí)現(xiàn)。?
8、模型調(diào)優(yōu):熟悉主流大模型原理,熟悉大模型框架,了解PD分離等技術(shù),能夠進(jìn)行模型部署和算力調(diào)優(yōu)。
9、項(xiàng)目經(jīng)驗(yàn):有千卡以上集群管理運(yùn)營(yíng)經(jīng)驗(yàn)者優(yōu)先。具備在大規(guī)模算力項(xiàng)目中擔(dān)任核心角色的能力,能夠從項(xiàng)目的規(guī)劃、實(shí)施到交付,全程把控項(xiàng)目進(jìn)度和質(zhì)量。