核心職責(zé) l AI基礎(chǔ)設(shè)施架構(gòu)設(shè)計(jì)與優(yōu)化 - 主導(dǎo)GPU集群(DGX/HGX系統(tǒng))的架構(gòu)設(shè)計(jì),優(yōu)化NVLink/NVSwitch拓?fù)洹nfiniBand網(wǎng)絡(luò)架構(gòu)及存儲(chǔ)協(xié)同方案(GPUDirect Storage),提升分布式訓(xùn)練與推理任務(wù)的吞吐效率。 - 設(shè)計(jì)混合云/本地化AI基礎(chǔ)設(shè)施方案,平衡性能、成本與合規(guī)需求,制定裸金屬、虛擬機(jī)及容器化(K8s/OpenShift)資源的統(tǒng)一調(diào)度策略。 l NVIDIA技術(shù)棧深度集成與運(yùn)維 - 部署并優(yōu)化NVIDIA AI Enterprise套件:包括NIM微服務(wù)(容器化模型推理)、NeMo框架(大模型訓(xùn)練)、Base Command(集群管理)及Run:ai(GPU資源調(diào)度平臺(tái)),實(shí)現(xiàn)算力資源的彈性伸縮與優(yōu)先級(jí)調(diào)度。 - 主導(dǎo)GPU驅(qū)動(dòng)、CUDA、cuDNN等底層工具鏈的版本治理與兼容性測(cè)試,解決硬件-軟件棧的深度耦合問題(如CUDA內(nèi)核沖突、顯存泄漏)。 l 生產(chǎn)級(jí)AI平臺(tái)容器化與高可用保障 - 構(gòu)建基于Kubernetes/OpenShift的容器化AI平臺(tái),集成GPU設(shè)備插件、R - 設(shè)計(jì)多層次容災(zāi)方案:包括集群級(jí)冗余(多活數(shù)據(jù)中心)、節(jié)點(diǎn)級(jí)故障切換(GPU熱備)、數(shù)據(jù)持久化(Ceph/Rook存儲(chǔ))及服務(wù)自愈機(jī)制。 l 性能調(diào)優(yōu)與成本治理 - 通過DCGM、Nsight Tools監(jiān)控GPU利用率、顯存占用及網(wǎng)絡(luò)延遲,定位性能瓶頸并實(shí)施優(yōu)化(如內(nèi)核融合、通信流水線、混合精度訓(xùn)練)。
必備技能與經(jīng)驗(yàn)
l 技術(shù)棧深度要求: - 精通NVIDIA全棧技術(shù):包括GPU架構(gòu)(Ampere/Hopper)、CUDA編程模型、NIM/NeMo微服務(wù)部署、Run:ai資源調(diào)度及InfiniBand/RDMA網(wǎng)絡(luò)優(yōu)化。 - 精通容器化與編排平臺(tái):Kubernetes(GPU Operator/Device Plugin)、Red Hat OpenShift或VMware Tanzu,具備大規(guī)模集群(>100節(jié)點(diǎn))運(yùn)維經(jīng)驗(yàn)。 - 掌握基礎(chǔ)設(shè)施即代碼(IaC):熟練使用Ansible/Terraform部署GPU節(jié)點(diǎn),熟悉Linux內(nèi)核調(diào)優(yōu)(CPU隔離、巨頁(yè)內(nèi)存)。 l 工程化與架構(gòu)能力: - 5年以上AI基礎(chǔ)設(shè)施架構(gòu)經(jīng)驗(yàn),主導(dǎo)過至少2個(gè)企業(yè)級(jí)GPU集群(>50節(jié)點(diǎn))的全生命周期管理(規(guī)劃→部署→運(yùn)維)。 - 精通高性能計(jì)算(HPC)故障診斷:包括GPU顯存錯(cuò)誤、NVLink通信中斷、InfiniBand丟包等硬件級(jí)問題定位。 l 認(rèn)證與協(xié)作要求: - 持有NVIDIA認(rèn)證(如NCA/NCP)、Kubernetes(CKA/CKS) 或Red Hat(RHCA) 相關(guān)證書者優(yōu)先。 - 出色的技術(shù)領(lǐng)導(dǎo)力,能協(xié)調(diào)硬件供應(yīng)商(如NVIDIA ESL團(tuán)隊(duì))、運(yùn)維團(tuán)隊(duì)及業(yè)務(wù)部門,推動(dòng)技術(shù)決策落地。
個(gè)人特質(zhì) l 復(fù)雜系統(tǒng)掌控力:善于通過分層解耦(計(jì)算/存儲(chǔ)/網(wǎng)絡(luò))與自動(dòng)化工具鏈,解決GPU集群的規(guī)?;\(yùn)維難題。 l 技術(shù)前瞻性:持續(xù)跟蹤NVIDIA技術(shù)演進(jìn)(如新一代GPU架構(gòu)、CUDA版本特性),率先引入生產(chǎn)環(huán)境驗(yàn)證。 l 跨域協(xié)同能力:能用非技術(shù)語(yǔ)言向管理層闡釋基礎(chǔ)設(shè)施投資價(jià)值,同時(shí)為工程師提供底層調(diào)優(yōu)的實(shí)戰(zhàn)指導(dǎo)。