崗位職責(zé):
1.負(fù)責(zé)設(shè)計和規(guī)劃AI基礎(chǔ)設(shè)施平臺的整體架構(gòu),包括計算資源(如CPU、GPU、TPU等)、存儲資源(如分布式存儲、對象存儲等)、網(wǎng)絡(luò)資源(如高速網(wǎng)絡(luò)、負(fù)載均衡等)的布局和整合。
2.負(fù)責(zé)根據(jù)業(yè)務(wù)需求和預(yù)算,選擇合適的硬件設(shè)備、軟件框架(如TensorFlow、PyTorch等)、容器化技術(shù)(如Docker、Kubernetes等)以及云服務(wù)等。
3.負(fù)責(zé)大規(guī)模在業(yè)務(wù)場景中的落地、算法開發(fā)與優(yōu)化,需緊貼業(yè)務(wù)需求,不斷改進(jìn)算法在業(yè)務(wù)中的效果。
4.開發(fā)優(yōu)化GPU/NPU多機(jī)多卡訓(xùn)練框架,如數(shù)據(jù)并行、張量并行、專家并行等,提供高性能穩(wěn)定的模型訓(xùn)練平臺。
5.優(yōu)化大規(guī)模AIGC模型服務(wù)全鏈路性能,打造低延時、高吞吐、高穩(wěn)定性的推理系統(tǒng)。
6.SD/LLM模型推理優(yōu)化加速,包括但不限于算子優(yōu)化,模型量化,模型裁剪,模型蒸餾等。
任職資格要求:
1.基本要求:大學(xué)本科及以上學(xué)歷,至少具備基本要求中的2項,且至少具備(1)和(2)中的一項。
(1)碩士研究生及以上學(xué)歷(學(xué)歷和學(xué)位雙證);
(2)省級科技人才(獲得省政府授予的科技人才榮譽(yù)稱號)或知名互聯(lián)網(wǎng)公司、知名科技領(lǐng)先企業(yè)、大型科研院所、行業(yè)頭部企業(yè)等機(jī)構(gòu)中重要技術(shù)團(tuán)隊負(fù)責(zé)人或主要技術(shù)負(fù)責(zé)人;
(3)具有1個科創(chuàng)類百萬級重大項目成功經(jīng)驗;
(4)從事過省級發(fā)展規(guī)劃中新一代信息通信、人工智能、大數(shù)據(jù)等前沿領(lǐng)域和解決“卡脖子”技術(shù)問題;
(5)在人工智能、企業(yè)數(shù)字化等技術(shù)方向或某一特定技術(shù)領(lǐng)域擁有較強(qiáng)的研發(fā)背景,在某一特定技術(shù)領(lǐng)域的技術(shù)水平得到行業(yè)公認(rèn);
(6)牽頭研發(fā)的科研項目取得實踐成果,在行業(yè)榮獲獎項。
2.專業(yè)要求:計算機(jī)類、電子信息類、數(shù)學(xué)類相關(guān)專業(yè)。
3.其他任職資格要求:
(1)了解主流AIGC算法模型,有AIGC模型推理和訓(xùn)練加速落地經(jīng)驗者優(yōu)先。
(2)熟悉掌握梯度下降、SGD、Adam等分布式訓(xùn)練方法。
(3)熟悉TensorFlow、Pytorch等主流深度學(xué)習(xí)框架,并有實際的模型訓(xùn)練、調(diào)優(yōu)的項目經(jīng)驗。
(4)熟練掌握J(rèn)ava/Python/C++中一種或多種編程語言,具備良好的軟件設(shè)計和開發(fā)能力。
(5)有大模型訓(xùn)練優(yōu)化經(jīng)驗,熟悉FSDP/DeepSpeed/Megatron等分布式訓(xùn)練框架經(jīng)驗者優(yōu)先。