職位描述
牽頭多語種(西班牙語、葡萄牙語、俄語、阿拉伯語、馬來語、他加祿語、越南語)訓(xùn)練數(shù)據(jù)全流程管理,搭建符合各語種特性的標(biāo)注框架與質(zhì)量標(biāo)準(zhǔn),對齊專家/算法團隊需求,確保數(shù)據(jù)適配大模型訓(xùn)練場景。
統(tǒng)籌核心標(biāo)注團隊,主導(dǎo)多語種數(shù)據(jù)生產(chǎn)、預(yù)處理、標(biāo)注、校驗全鏈路推進,解決不同語種在表達習(xí)慣、文化適配等方面的差異化問題。
搭建多語種數(shù)據(jù)自動化生產(chǎn)鏈路,通過 PE 工具、代碼工具優(yōu)化數(shù)據(jù)處理效率,開展數(shù)據(jù)質(zhì)量評估與分析調(diào)優(yōu),提升數(shù)據(jù)準(zhǔn)確率、完整性與多樣性。
協(xié)同算法、產(chǎn)品團隊跟蹤大模型技術(shù)進展,探索多語種智能數(shù)據(jù)生產(chǎn)模式,結(jié)合各語種使用場景迭代數(shù)據(jù)生產(chǎn)方案,支撐模型多語種能力優(yōu)化。
建立多語種數(shù)據(jù)生產(chǎn)協(xié)作機制,跨團隊同步數(shù)據(jù)進度與質(zhì)量情況,沉淀語種適配經(jīng)驗與數(shù)據(jù)處理方法論,形成可復(fù)用的標(biāo)準(zhǔn)流程。
職位要求
本科及以上學(xué)歷,語言類、計算機類、數(shù)據(jù)科學(xué)類相關(guān)專業(yè)優(yōu)先,具備 3 年以上多語種數(shù)據(jù)處理或大模型數(shù)據(jù)生產(chǎn)相關(guān)工作經(jīng)驗。
精通至少 1 門上述小語種,或是該語言的母語者,2-3 種其他語種的基本語言學(xué)認識,能獨立完成本語種數(shù)據(jù)質(zhì)量校驗與標(biāo)準(zhǔn)制定。英文可作為工作語言,聽說能力佳,可以和國外native用英文溝通需求、撰寫英文文檔。
熟悉大語言模型訓(xùn)練數(shù)據(jù)生產(chǎn)邏輯,掌握數(shù)據(jù)標(biāo)注、預(yù)處理、質(zhì)量評估的核心方法,具備搭建多語種數(shù)據(jù)生產(chǎn)框架的實操能力。
具備基礎(chǔ)的代碼能力(如 Python)或 PE 工具使用經(jīng)驗,能通過技術(shù)手段優(yōu)化多語種數(shù)據(jù)處理效率,有自動化數(shù)據(jù)生產(chǎn)鏈路搭建經(jīng)驗者優(yōu)先。
具備優(yōu)秀的統(tǒng)籌協(xié)調(diào)與跨團隊溝通能力,能帶領(lǐng)團隊高效推進多語種數(shù)據(jù)生產(chǎn)任務(wù),擅長解決不同語種的差異化協(xié)作問題。
了解各目標(biāo)語種的使用區(qū)域特性與表達習(xí)慣,對大語言模型多語種能力優(yōu)化有一定認知,具備較強的問題解決能力與迭代思維。