崗位職責:
1. 參與需求分析及技術方案設計。
2. 數(shù)據(jù)定制化: 根據(jù)特定項目方向(如面向轉場、多鏡頭、前景字符)定制數(shù)據(jù)源策略和數(shù)據(jù)處理方案。
3. 數(shù)據(jù)處理與構建:
○ 設計并執(zhí)行數(shù)據(jù)清洗、預處理。
○ 定義并確保高質(zhì)量的數(shù)據(jù)標準。
○ 組織和管理數(shù)據(jù)標注工作。
○ 構建結構化的、適用于模型訓練和評測的高質(zhì)量數(shù)據(jù)集。
4. 流程優(yōu)化: 持續(xù)優(yōu)化數(shù)據(jù)獲取、處理、標注、存儲和管理流程,提升效率與質(zhì)量。
5. 評測數(shù)據(jù)建設: 專注于構建公平、全面、具有挑戰(zhàn)性模型評測數(shù)據(jù)集,服務于模型能力評估和行業(yè)對比。
崗位需求:
1. 計算機科學、數(shù)據(jù)科學、人工智能、軟件工程或相關領域的本科及以上學歷。
2. 相關經(jīng)驗與技術領域年限:
■ 1年~3年數(shù)據(jù)處理、數(shù)據(jù)工程或機器學習相關領域工作經(jīng)驗。
■ 1年及以上實際處理視頻數(shù)據(jù)(圖像+文本、視頻+文本等)的項目經(jīng)驗,熟悉其特有挑戰(zhàn)和處理方法。
優(yōu)先:有視覺語言模型(VLM) 相關項目數(shù)據(jù)工作經(jīng)驗,深刻理解其數(shù)據(jù)需求。
3. 專業(yè)技能:
數(shù)據(jù)處理基礎扎實: 了解數(shù)據(jù)清洗、預處理、轉換技術,熟悉常見的數(shù)據(jù)處理工具和庫(如Pandas, NumPy, SQL等)。
數(shù)據(jù)標準制定: 具備定義清晰、可執(zhí)行的多模態(tài)數(shù)據(jù)質(zhì)量標準(如圖文相關性、視頻片段描述準確性、時序對齊度)的能力。
數(shù)據(jù)標注管理: 有設計標注規(guī)范、管理標注團隊或使用標注平臺的經(jīng)驗。