崗位職責(zé)
1. 數(shù)據(jù)采集與獲?。?設(shè)計(jì)并實(shí)現(xiàn)從多源(文本、結(jié)構(gòu)化DB、API、網(wǎng)頁(yè)等)獲取知識(shí)數(shù)據(jù)的方案。
2. 數(shù)據(jù)清洗與預(yù)處理: 對(duì)原始數(shù)據(jù)進(jìn)行深度清洗、去噪、格式化、標(biāo)準(zhǔn)化,處理多源異構(gòu)數(shù)據(jù),確保數(shù)據(jù)質(zhì)量。
3. 信息抽取與結(jié)構(gòu)化: 應(yīng)用NLP技術(shù)(實(shí)體識(shí)別、關(guān)系抽取、事件抽取等)從非結(jié)構(gòu)化/半結(jié)構(gòu)化文本中提取結(jié)構(gòu)化知識(shí)(為知識(shí)圖譜工程師提供基礎(chǔ)數(shù)據(jù))。
4. 知識(shí)向量化(Embedding)與索引: 選型、應(yīng)用和優(yōu)化Embedding模型,將文本/知識(shí)轉(zhuǎn)化為向量表示。精通主流向量數(shù)據(jù)庫(kù)(Milvus, Pinecone, Weaviate, Chroma, ES w/ vector)的選型、部署、索引構(gòu)建、優(yōu)化與維護(hù)。
5. 合成數(shù)據(jù)生成: 探索和應(yīng)用技術(shù)生成用于模型訓(xùn)練、微調(diào)或測(cè)試的合成數(shù)據(jù)。
6. 數(shù)據(jù)流水線與自動(dòng)化: 構(gòu)建高效、可擴(kuò)展、自動(dòng)化的數(shù)據(jù)ETL/ELT流水線,支持知識(shí)庫(kù)的持續(xù)更新和質(zhì)量監(jiān)控。
7. 知識(shí)更新機(jī)制: 設(shè)計(jì)和實(shí)現(xiàn)知識(shí)庫(kù)的增量更新和版本管理機(jī)制。
8. 數(shù)據(jù)質(zhì)量與評(píng)估: 制定并實(shí)施知識(shí)數(shù)據(jù)質(zhì)量的評(píng)估標(biāo)準(zhǔn)和流程。與算法工程師合作定義數(shù)據(jù)需求。
9. 工具建設(shè): 開發(fā)或引入易用的內(nèi)部工具支持?jǐn)?shù)據(jù)清洗、處理、向量化、索引等操作。
任職要求
1. 編程與工程能力:
極其出色的數(shù)據(jù)處理能力,精通Python數(shù)據(jù)處理庫(kù)(Pandas, NumPy, Spark等)和SQL。
強(qiáng)大的數(shù)據(jù)管道(ETL/ELT)設(shè)計(jì)、構(gòu)建和優(yōu)化能力。
2. AI技術(shù)棧:
熟悉主流Embedding模型原理及應(yīng)用。
精通至少1-2種主流向量數(shù)據(jù)庫(kù)的核心原理、部署、API、性能調(diào)優(yōu)。
經(jīng)驗(yàn)要求:
2年以上大規(guī)模數(shù)據(jù)處理、清洗、構(gòu)建知識(shí)庫(kù)/數(shù)據(jù)湖/數(shù)據(jù)倉(cāng)庫(kù)的實(shí)戰(zhàn)經(jīng)驗(yàn)。
有使用向量數(shù)據(jù)庫(kù)構(gòu)建和優(yōu)化檢索系統(tǒng)的項(xiàng)目經(jīng)驗(yàn)。
有信息抽取或數(shù)據(jù)標(biāo)注項(xiàng)目經(jīng)驗(yàn)者優(yōu)先。
3.核心技能:
大規(guī)模多源異構(gòu)數(shù)據(jù)處理與清洗。
向量化(Embedding)技術(shù)實(shí)踐。
向量數(shù)據(jù)庫(kù)的深度應(yīng)用與優(yōu)化。
數(shù)據(jù)流水線工程化與自動(dòng)化。