崗位職責(zé):
結(jié)合業(yè)務(wù)需求,訓(xùn)練垂域模型,pt、sft、rlhf
1. 基于業(yè)務(wù)場(chǎng)景,提煉模型訓(xùn)練數(shù)據(jù);
2. 跟蹤業(yè)內(nèi)進(jìn)展,并將其應(yīng)用于實(shí)際模型訓(xùn)練;
3. 修改訓(xùn)練代碼,加速模型訓(xùn)練流程;
任職要求:
1. 熟悉常見(jiàn)的模型訓(xùn)練算法,包括但不限于:DPO、GRPO等;
2. 熟悉各類(lèi)模型并行訓(xùn)練算法,熟悉模型訓(xùn)練全流程;
3. 熟悉RLHF訓(xùn)練框架(如 verl),有修改、優(yōu)化、加速訓(xùn)練代碼經(jīng)驗(yàn);