職位描述
崗位職責(zé):
1、負(fù)責(zé)大模型自動(dòng)化評測體系的建設(shè)與迭代,涵蓋評測流程設(shè)計(jì)、指標(biāo)體系制定、工具與平臺開發(fā),確保評測結(jié)果科學(xué)、穩(wěn)定、可復(fù)用;
2、基于Agent與Workflow等先進(jìn)技術(shù),搭建自動(dòng)化評測Pipeline,支持文本、多模態(tài)及AI應(yīng)用的效果評估;
3、深入研究新型大模型評測方法與技術(shù),制定科學(xué)合理的評測策略,推動(dòng)評測體系的智能化與標(biāo)準(zhǔn)化,為模型優(yōu)化提供有價(jià)值的反饋;
4、與研發(fā)團(tuán)隊(duì)緊密協(xié)作,將自動(dòng)化評測體系嵌入模型訓(xùn)練與產(chǎn)品研發(fā)流程,形成評測與優(yōu)化的閉環(huán)支持。
任職要求:
1、本科及以上學(xué)歷,計(jì)算機(jī)科學(xué)、人工智能、計(jì)算語言學(xué)等相關(guān)專業(yè)優(yōu)先;
2、掌握Python等編程語言,具備PE撰寫調(diào)優(yōu)、Agent/Workflow搭建實(shí)踐經(jīng)驗(yàn)優(yōu)先;
3、具備1年以上大模型評測或相關(guān)經(jīng)驗(yàn),熟悉常見評測指標(biāo)和方法,了解自動(dòng)化評測工具或平臺的開發(fā)與應(yīng)用;
4、對大模型評測與優(yōu)化充滿熱情,關(guān)注前沿研究動(dòng)態(tài),具備快速學(xué)習(xí)與持續(xù)探索能力;
5、思路清晰,邏輯性強(qiáng),具備跨團(tuán)隊(duì)協(xié)作與溝通能力,能夠在復(fù)雜項(xiàng)目環(huán)境中獨(dú)立推進(jìn)工作優(yōu)先。