工作職責(zé)
數(shù)據(jù)治理與質(zhì)量優(yōu)化
1. 設(shè)計(jì)并實(shí)施數(shù)據(jù)治理策略,確保數(shù)據(jù)的準(zhǔn)確性、一致性和合規(guī)性。
2. 開發(fā)數(shù)據(jù)清洗、去重、標(biāo)準(zhǔn)化和標(biāo)注的自動(dòng)化工具,提升數(shù)據(jù)可用性。
3. 結(jié)合統(tǒng)計(jì)抽樣方法(如分層抽樣、聚類抽樣)評(píng)估數(shù)據(jù)質(zhì)量,識(shí)別數(shù)據(jù)偏差。
大語言模型(LLM)應(yīng)用與優(yōu)化
1. 利用LLM(如GPT、BERT、LLaMA等)進(jìn)行文本數(shù)據(jù)治理,包括實(shí)體識(shí)別、分類、摘要生成等。
2. 微調(diào)或訓(xùn)練領(lǐng)域?qū)S玫拇笳Z言模型,提升數(shù)據(jù)標(biāo)注、知識(shí)圖譜構(gòu)建等任務(wù)的效率。
3. 解決LLM在數(shù)據(jù)治理中的挑戰(zhàn)(如幻覺抑制、隱私保護(hù)、小樣本學(xué)習(xí))。
統(tǒng)計(jì)建模與實(shí)驗(yàn)設(shè)計(jì)
1. 開發(fā)統(tǒng)計(jì)抽樣模型(如Bootstrap、貝葉斯抽樣)支持?jǐn)?shù)據(jù)分析和決策。
2. 設(shè)計(jì)A/B測(cè)試或多臂老虎機(jī)實(shí)驗(yàn),評(píng)估數(shù)據(jù)治理產(chǎn)品的效果。
3. 構(gòu)建預(yù)測(cè)模型或異常檢測(cè)模型,監(jiān)控?cái)?shù)據(jù)管道健康狀況。
跨團(tuán)隊(duì)協(xié)作
1. 與數(shù)據(jù)工程師合作優(yōu)化數(shù)據(jù)管道,與產(chǎn)品經(jīng)理溝通需求并落地?cái)?shù)據(jù)治理功能。
2. 輸出技術(shù)文檔,向非技術(shù)團(tuán)隊(duì)解釋模型原理和數(shù)據(jù)治理邏輯。
任職資格
教育背景與培訓(xùn)經(jīng)歷:計(jì)算機(jī),統(tǒng)計(jì)學(xué),數(shù)學(xué)相關(guān)專業(yè)。
工作經(jīng)驗(yàn):
1. 3年以上數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)相關(guān)工作經(jīng)驗(yàn)。
2. 有數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量管控或數(shù)據(jù)中臺(tái)項(xiàng)目經(jīng)驗(yàn)者優(yōu)先。
行業(yè)背景:醫(yī)藥相關(guān)項(xiàng)目經(jīng)驗(yàn)為佳、乙方咨詢類公司經(jīng)驗(yàn)
專業(yè)技能及語言要求:
1. 熟練掌握Python(Pandas、NumPy、Scikit-learn)和SQL。
2. 有大語言模型實(shí)戰(zhàn)經(jīng)驗(yàn)(如Hugging Face、LangChain、OpenAI API)。
3. 精通統(tǒng)計(jì)抽樣方法(隨機(jī)抽樣、重要性抽樣等)和假設(shè)檢驗(yàn)(p值、置信區(qū)間)。
4. 熟悉數(shù)據(jù)治理工具(如Apache Atlas、Collibra)或自建數(shù)據(jù)血緣/元數(shù)據(jù)管理系統(tǒng)
能力要求:
1. 邏輯清晰,能獨(dú)立解決復(fù)雜數(shù)據(jù)問題
2. 溝通及快團(tuán)隊(duì)協(xié)同能力
3. 有良好的學(xué)習(xí)能力