一句話使命:把“教材/課件/作業(yè)/案例庫”等異構(gòu)內(nèi)容,轉(zhuǎn)化為可檢索、可追溯、可評測的知識底座,支撐可信引用與課堂實操。
主要職責(zé)
 - 設(shè)計并實現(xiàn)課程私有庫的數(shù)據(jù)管線:采集→清洗→解析→分塊→索引→評測→上線→監(jiān)控。
  - 建立混合檢索方案(BM25 + 向量/稀疏表示),并按課程類型調(diào)優(yōu)分塊與召回策略。
  - 集成與優(yōu)化重排/Rerank與引用抽取(chunk/page錨點、引用鏈可視化)。
  - 建立RAG評測集與指標(biāo):召回率/精準(zhǔn)率、NDCG@k、引用覆蓋率、答案“基于證據(jù)”分。
  - 與AI后端協(xié)作實現(xiàn)RAG服務(wù)API(檢索、重排、證據(jù)壓縮、上下文編排)與灰度治理。
  - 針對學(xué)術(shù)場景優(yōu)化長文檔/多模態(tài)(PDF/Docx/PPT/表格/代碼)解析與OCR糾錯。
  - 數(shù)據(jù)分級、訪問控制、PII脫敏與審計留痕;沉淀數(shù)據(jù)字典與版本化策略。
  - 與教研Owner共建“可信引用規(guī)范”與Rubric對齊的證據(jù)呈現(xiàn)。
 
任職要求
 - 精通一種后端語言(Python/Go),熟悉FastAPI/Go-Kit、消息隊列、向量數(shù)據(jù)庫(Milvus/Qdrant/PGVector/FAISS)。
  - 深入理解RAG鏈路:分塊策略(遞歸、語義、結(jié)構(gòu)化段落)、embedding與檢索優(yōu)化、重排模型(如bge-reranker等)的選型與部署。
  - 熟悉混合檢索與稀疏表示(BM25/SPLADE等),會做A/B評測與統(tǒng)計顯著性驗證。
  - 有生產(chǎn)級數(shù)據(jù)管線經(jīng)驗(Airflow/Argo/Kafka),可觀測性(日志/鏈路/指標(biāo))。
  - 能以工程手段降低幻覺:基于證據(jù)回答、引文完整度、置信度閾值與拒答策略。
  - 價值觀匹配:客戶第一、求真務(wù)實;能以實證驅(qū)動迭代,不空談“玄學(xué)提示”。
 
加分項:教育/學(xué)術(shù)場景經(jīng)驗;中英雙語/多語檢索;表格/公式/代碼類文檔解析;向量檢索在K8s上的彈性與成本優(yōu)化。
工具棧建議
Python/FastAPI、Milvus/Qdrant/PGVector、Elasticsearch/Lucene、bge-m3等向量模型、bge-reranker/ColBERT類重排、Airflow/Argo、Kafka、K8s、Prometheus/Grafana、Great Expectations(數(shù)據(jù)質(zhì)量)。