日日噜夜夜草|一级黄色录像高清版|调教白富美加勒比久久|亚洲欧洲精品婷婷|日韩综合无码色色|日韩精品一区妖精视频|亚洲无码中文字幕hd|99亚洲思思丝袜|手机看片国产精品大胆亚洲|成人无码视频一区二区在线播放

更新于 9月15日

底層AI 服務(wù)架構(gòu)

3-3.5萬(wàn)
  • 廣州黃埔區(qū)
  • 5-10年
  • 本科
  • 全職
  • 招1人

雇員點(diǎn)評(píng)標(biāo)簽

  • 工作環(huán)境好
  • 同事很nice
  • 人際關(guān)系好
  • 團(tuán)隊(duì)執(zhí)行強(qiáng)
  • 氛圍活躍
  • 免費(fèi)班車
  • 管理人性化
  • 準(zhǔn)時(shí)發(fā)工資

職位描述

AI
核心職責(zé)
l AI基礎(chǔ)設(shè)施架構(gòu)設(shè)計(jì)與優(yōu)化
- 主導(dǎo)GPU集群(DGX/HGX系統(tǒng))的架構(gòu)設(shè)計(jì),優(yōu)化NVLink/NVSwitch拓?fù)洹nfiniBand網(wǎng)絡(luò)架構(gòu)及存儲(chǔ)協(xié)同方案(GPUDirect Storage),提升分布式訓(xùn)練與推理任務(wù)的吞吐效率。
- 設(shè)計(jì)混合云/本地化AI基礎(chǔ)設(shè)施方案,平衡性能、成本與合規(guī)需求,制定裸金屬、虛擬機(jī)及容器化(K8s/OpenShift)資源的統(tǒng)一調(diào)度策略。
l NVIDIA技術(shù)棧深度集成與運(yùn)維
- 部署并優(yōu)化NVIDIA AI Enterprise套件:包括NIM微服務(wù)(容器化模型推理)、NeMo框架(大模型訓(xùn)練)、Base Command(集群管理)及Run:ai(GPU資源調(diào)度平臺(tái)),實(shí)現(xiàn)算力資源的彈性伸縮與優(yōu)先級(jí)調(diào)度。
- 主導(dǎo)GPU驅(qū)動(dòng)、CUDA、cuDNN等底層工具鏈的版本治理與兼容性測(cè)試,解決硬件-軟件棧的深度耦合問題(如CUDA內(nèi)核沖突、顯存泄漏)。
l 生產(chǎn)級(jí)AI平臺(tái)容器化與高可用保障
- 構(gòu)建基于Kubernetes/OpenShift的容器化AI平臺(tái),集成GPU設(shè)備插件、R
- 設(shè)計(jì)多層次容災(zāi)方案:包括集群級(jí)冗余(多活數(shù)據(jù)中心)、節(jié)點(diǎn)級(jí)故障切換(GPU熱備)、數(shù)據(jù)持久化(Ceph/Rook存儲(chǔ))及服務(wù)自愈機(jī)制。
l 性能調(diào)優(yōu)與成本治理
- 通過DCGM、Nsight Tools監(jiān)控GPU利用率、顯存占用及網(wǎng)絡(luò)延遲,定位性能瓶頸并實(shí)施優(yōu)化(如內(nèi)核融合、通信流水線、混合精度訓(xùn)練)。

必備技能與經(jīng)驗(yàn)

l 技術(shù)棧深度要求:
- 精通NVIDIA全棧技術(shù):包括GPU架構(gòu)(Ampere/Hopper)、CUDA編程模型、NIM/NeMo微服務(wù)部署、Run:ai資源調(diào)度及InfiniBand/RDMA網(wǎng)絡(luò)優(yōu)化。
- 精通容器化與編排平臺(tái):Kubernetes(GPU Operator/Device Plugin)、Red Hat OpenShift或VMware Tanzu,具備大規(guī)模集群(>100節(jié)點(diǎn))運(yùn)維經(jīng)驗(yàn)。
- 掌握基礎(chǔ)設(shè)施即代碼(IaC):熟練使用Ansible/Terraform部署GPU節(jié)點(diǎn),熟悉Linux內(nèi)核調(diào)優(yōu)(CPU隔離、巨頁(yè)內(nèi)存)。
l 工程化與架構(gòu)能力:
- 5年以上AI基礎(chǔ)設(shè)施架構(gòu)經(jīng)驗(yàn),主導(dǎo)過至少2個(gè)企業(yè)級(jí)GPU集群(>50節(jié)點(diǎn))的全生命周期管理(規(guī)劃→部署→運(yùn)維)。
- 精通高性能計(jì)算(HPC)故障診斷:包括GPU顯存錯(cuò)誤、NVLink通信中斷、InfiniBand丟包等硬件級(jí)問題定位。
l 認(rèn)證與協(xié)作要求:
- 持有NVIDIA認(rèn)證(如NCA/NCP)、Kubernetes(CKA/CKS) 或Red Hat(RHCA) 相關(guān)證書者優(yōu)先。
- 出色的技術(shù)領(lǐng)導(dǎo)力,能協(xié)調(diào)硬件供應(yīng)商(如NVIDIA ESL團(tuán)隊(duì))、運(yùn)維團(tuán)隊(duì)及業(yè)務(wù)部門,推動(dòng)技術(shù)決策落地。

個(gè)人特質(zhì)
l 復(fù)雜系統(tǒng)掌控力:善于通過分層解耦(計(jì)算/存儲(chǔ)/網(wǎng)絡(luò))與自動(dòng)化工具鏈,解決GPU集群的規(guī)?;\(yùn)維難題。
l 技術(shù)前瞻性:持續(xù)跟蹤NVIDIA技術(shù)演進(jìn)(如新一代GPU架構(gòu)、CUDA版本特性),率先引入生產(chǎn)環(huán)境驗(yàn)證。
l 跨域協(xié)同能力:能用非技術(shù)語(yǔ)言向管理層闡釋基礎(chǔ)設(shè)施投資價(jià)值,同時(shí)為工程師提供底層調(diào)優(yōu)的實(shí)戰(zhàn)指導(dǎo)。

工作地點(diǎn)

廣州黃埔區(qū)廣納院本部園區(qū)

職位發(fā)布者

田女士/招聘

昨日活躍
立即溝通
公司Logo軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司公司標(biāo)簽
軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱“軟通動(dòng)力”)是中國(guó)數(shù)字技術(shù)產(chǎn)品和服務(wù)創(chuàng)新領(lǐng)導(dǎo)企業(yè),致力于成為一家具有全球影響力的科技企業(yè),企業(yè)數(shù)字化轉(zhuǎn)型可信賴合作伙伴。公司2005年成立于北京,多年來(lái)始終堅(jiān)持科技創(chuàng)新,具有軟硬全棧的智能技術(shù)產(chǎn)品和服務(wù)能力,提供軟件與數(shù)字技術(shù)服務(wù)、計(jì)算產(chǎn)品與數(shù)字基礎(chǔ)設(shè)施、數(shù)字能源與智算服務(wù)以及國(guó)際化服務(wù)。目前,公司在10余個(gè)重要行業(yè)服務(wù)超過1100家國(guó)內(nèi)外客戶,其中超過230家客戶為世界500強(qiáng)或中國(guó)500強(qiáng)企業(yè),員工近90000人。軟通動(dòng)力擁有軟通咨詢、軟通金科、軟通工業(yè)互聯(lián)、機(jī)械革命、軟通華方等業(yè)務(wù)子品牌,并在全球40余個(gè)城市布局業(yè)務(wù),構(gòu)建北美、日本、東南亞、中東四大國(guó)際交付中心,在北京城市副中心、江蘇無(wú)錫建設(shè)兩大智能制造基地。同時(shí),公司前瞻布局智能制造、ICT軟硬基礎(chǔ)能力和生產(chǎn)力智能化產(chǎn)品,打造產(chǎn)業(yè)鏈閉環(huán)。軟通動(dòng)力設(shè)立30個(gè)能力中心,擁有1個(gè)國(guó)家級(jí)工程實(shí)驗(yàn)室,6個(gè)省市政府認(rèn)定的工程、技術(shù)實(shí)驗(yàn)室及研發(fā)中心,1個(gè)博士后科研工作站,50+技術(shù)合作伙伴的生態(tài)合作體系,不斷探索前沿技術(shù)的巨大商業(yè)應(yīng)用潛力。公司旗下教育品牌軟通教育,擁有一家全日制本科學(xué)院——鄭州西亞斯學(xué)院數(shù)字技術(shù)產(chǎn)業(yè)學(xué)院;同時(shí)在全國(guó)合作院校600多所,設(shè)有70多個(gè)校企聯(lián)合人才培養(yǎng)基地,通過校企合作、協(xié)同育人,為社會(huì)培養(yǎng)高素質(zhì)應(yīng)用型人才。軟通動(dòng)力先后獲得“2023年中國(guó)IT服務(wù)市場(chǎng)排名TOP 1”、“2024年Q4 PC出貨量國(guó)內(nèi)市場(chǎng)份額排名TOP 2”、“2024年中國(guó)軟件和信息技術(shù)服務(wù)競(jìng)爭(zhēng)力百?gòu)?qiáng)企業(yè)”、“2023年中國(guó)信創(chuàng)企業(yè)100強(qiáng)”、“2024萬(wàn)得ESG評(píng)級(jí)(Wind ESG Rating)AA級(jí)及信息技術(shù)服務(wù)行業(yè)ESG綜合得分排名第一”等榮譽(yù)及市場(chǎng)認(rèn)可,并擁有全球軟件工程領(lǐng)域最高級(jí)別CMMI V2.0成熟度5級(jí)評(píng)估認(rèn)證、國(guó)家研發(fā)運(yùn)營(yíng)一體化(DevOps)三級(jí)能力成熟度模型認(rèn)證、信息技術(shù)服務(wù)標(biāo)準(zhǔn)(ITSS)運(yùn)維能力成熟度一級(jí)認(rèn)證等專業(yè)資質(zhì),支撐公司更優(yōu)質(zhì)的服務(wù)體系。
公司主頁(yè)