崗位職責(zé):
1.負責(zé)私有化大模型的部署實施,包括環(huán)境準備(如基于KVM 的虛擬化集群、裸金屬服務(wù)器部署)、模型文件管理(如 Hugging Face / ModelScope模型倉庫集成)、推理服務(wù)搭建(如 TensorFlow Serving、PyTorch TorchServe);
2.根據(jù)業(yè)務(wù)需求完成大模型定制化部署(如多模型版本共存、API 網(wǎng)關(guān)集成、訪問權(quán)限控制),保障部署的穩(wěn)定性與安全性;
3.運用強化學(xué)習(xí)(如 PPO、DQN)、遷移學(xué)習(xí)、LoRA 微調(diào)等技術(shù)優(yōu)化模型性能,針對特定場景(如醫(yī)療、金融)完成模型適配(如領(lǐng)域知識注入);
4.監(jiān)控模型運行狀態(tài)(如推理延遲、準確率下降),收集訓(xùn)練數(shù)據(jù)與日志(如 TensorBoard 日志分析),提出模型改進方案(如架構(gòu)調(diào)整、數(shù)據(jù)增強);
5.探索新型訓(xùn)練框架與優(yōu)化方法(如 Deepspeed 混合精度訓(xùn)練、Megatron-LM 分布式訓(xùn)練),提升大規(guī)模模型訓(xùn)練效率(如縮短訓(xùn)練周期 30% 以上)。
任職要求:
1.本科及以上學(xué)歷,人工智能、計算機相關(guān)專業(yè);
2.5年以上大模型部署與訓(xùn)練調(diào)優(yōu)經(jīng)驗,熟悉 GPT、LLaMA、BERT 等主流大模型架構(gòu);
3.掌握強化學(xué)習(xí)基本原理與實踐(如 OpenAI Gym 環(huán)境、Ray RLlib 框架),具備 RLHF(人類反饋強化學(xué)習(xí))優(yōu)化模型的經(jīng)驗;
4.熟悉私有化部署技術(shù),了解容器化(Docker/K8s)與云原生部署流程(如 Helm Charts 部署模型服務(wù));
5.具備 Python 編程能力,熟練使用 PyTorch/TensorFlow 等深度學(xué)習(xí)框架,了解 CUDA 編程(如自定義 op 優(yōu)化模型推理);
6.具有良好的問題解決能力,可獨立完成模型部署與調(diào)優(yōu)全流程(如從模型下載到線上服務(wù)的完整鏈條)。