崗位職責:
1.大模型系統(tǒng)架構開發(fā):
a.設計并實現(xiàn)高性能、可擴展的大模型訓練與推理系統(tǒng),優(yōu)化分布式計算、顯存管理、通信效率等關鍵模塊。
b.開發(fā)或改進大模型框架(如Verl、vLLM、Megatron等),支持十億級/百億級/千億級參數(shù)的穩(wěn)定訓練與高效推理。
2.性能優(yōu)化與調(diào)優(yōu):
a.解決大模型在訓練/推理中的瓶頸問題(如計算、存儲、通信),通過算子融合、流水線并行、量化壓縮等技術提升效率。
b.針對硬件(GPU/昇騰)特性進行底層優(yōu)化,實現(xiàn)低延遲、高吞吐的推理服務。
3.基礎設施構建:
a.搭建大模型開發(fā)與部署的全棧工具鏈,包括數(shù)據(jù)預處理、分布式訓練集群管理、模型服務化(如vLLM、SGLang)等。
b.設計容錯、彈性伸縮的推理平臺,支持多租戶、高并發(fā)場景需求。
4.前沿技術探索:
a.跟蹤LLM領域最新進展(如MoE、RLHF、多模態(tài)),將研究成果工程化落地。
b.探索大模型與邊緣計算、知識圖譜、具身智能等技術的結合。
崗位要求:
1.計算機科學、人工智能或相關領域的碩士/博士學歷,2年以上系統(tǒng)研發(fā)經(jīng)驗;
2.精通以下至少一個方向:
a.分布式系統(tǒng):熟悉NCCL、RDMA、MPI等通信協(xié)議,有大規(guī)模分布式訓練調(diào)優(yōu)經(jīng)驗。
b.GPU/NPU編程:精通CUDA、OpenAI Triton或Ascend C,能進行內(nèi)核級性能優(yōu)化。
c.機器學習框架:深入理解Verl/vLLM/Megatron底層機制,參與過框架開發(fā)或貢獻者優(yōu)先。
3.扎實的算法基礎,熟悉Transformer架構及大模型關鍵技術(如KV Cache、Flash Attention)。
4.優(yōu)秀的編程能力(Python/C++),熟悉Linux開發(fā)環(huán)境與容器化技術(Docker/K8s)。
5.熟悉LLM生態(tài)工具鏈(如Hugging Face、LangChain、LoRA)。
加分項
1.發(fā)表過MLSys、NeurIPS、OSDI等頂會論文,或開源項目核心貢獻者。
2.有百億以上參數(shù)的大模型訓練/推理落地經(jīng)驗。
3.熟悉LLM生態(tài)工具鏈(如Hugging Face、LangChain、LoRA)。