崗位職責(zé):
負(fù)責(zé)多Agent系統(tǒng)的意圖識(shí)別模型研發(fā),設(shè)計(jì)Agent協(xié)作決策,以及上下文壓縮的算法框架
基于SFT技術(shù)優(yōu)化模型在多Agent場(chǎng)景下的指令跟隨和任務(wù)分解能力
使用RLHF(PPO/DPO等)技術(shù)進(jìn)行模型對(duì)齊,優(yōu)化Agent輸出質(zhì)量和一致性
構(gòu)建后訓(xùn)練數(shù)據(jù)pipeline,包括高質(zhì)量SFT數(shù)據(jù)標(biāo)注、偏好數(shù)據(jù)采集、Reward Model訓(xùn)練
設(shè)計(jì)并實(shí)現(xiàn)多Agent協(xié)作的評(píng)估體系,持續(xù)迭代優(yōu)化模型效果,減少token的消耗
跟蹤多Agent、RLHF領(lǐng)域的前沿研究,落地驗(yàn)證新技術(shù)方案
任職要求:
碩士及以上學(xué)歷,計(jì)算機(jī)、AI、數(shù)學(xué)等相關(guān)專業(yè)
必須有SFT和RLHF實(shí)際項(xiàng)目經(jīng)驗(yàn),熟悉主流后訓(xùn)練框架(LLaMA-Factory/DeepSpeed-Chat等)
深入理解Transformer架構(gòu)、PPO/DPO算法原理,有Reward Model訓(xùn)練經(jīng)驗(yàn)
熟悉多Agent系統(tǒng)或意圖識(shí)別、壓縮上下相關(guān)算法(有相關(guān)論文/項(xiàng)目?jī)?yōu)先)
扎實(shí)的Python和PyTorch基礎(chǔ),熟悉分布式訓(xùn)練
強(qiáng)數(shù)據(jù)sense,能獨(dú)立完成從數(shù)據(jù)構(gòu)建到模型評(píng)估的完整閉環(huán)
加分項(xiàng):
有頂會(huì)論文發(fā)表(NeurIPS/ICML/ACL等)
參與過開源LLM項(xiàng)目的后訓(xùn)練工作
了解Constitutional AI、RLAIF等前沿對(duì)齊技術(shù)
周末雙休、五險(xiǎn)一金、彈性福利、帶薪病假、下午茶、零食、餐飲補(bǔ)貼、員工體檢、專業(yè)培訓(xùn)等