職位描述
1.數(shù)據(jù)資產(chǎn)化頂層設(shè)計
構(gòu)建企業(yè)級語音數(shù)據(jù)資產(chǎn)化技術(shù)架構(gòu),設(shè)計可擴展、高可用的數(shù)據(jù)存儲、處理及服務(wù)化體系
制定語音數(shù)據(jù)全生命周期管理規(guī)范,涵蓋采集、清洗、標注、存儲、治理、應(yīng)用全鏈條
建立數(shù)據(jù)資產(chǎn)目錄與元數(shù)據(jù)管理體系,實現(xiàn)語音數(shù)據(jù)的標準化描述與價值量化評估
2.技術(shù)體系構(gòu)建
主導(dǎo)PB級語音數(shù)據(jù)分布式存儲架構(gòu)設(shè)計,平衡冷熱數(shù)據(jù)分層存儲成本與訪問效率
搭建高性能語音數(shù)據(jù)處理流水線(特征提取/聲紋識別/語音轉(zhuǎn)寫等),優(yōu)化GPU資源利用率
構(gòu)建數(shù)據(jù)服務(wù)API平臺,支持語音數(shù)據(jù)按需調(diào)用(如語料檢索、聲紋驗證等場景)
3.數(shù)據(jù)治理與合規(guī)
建立數(shù)據(jù)安全防護體系,實現(xiàn)語音數(shù)據(jù)的脫敏處理、訪問權(quán)限控制及隱私合規(guī)審查
制定數(shù)據(jù)質(zhì)量評估標準,建立自動化異常檢測與修復(fù)機制
設(shè)計數(shù)據(jù)血緣追蹤系統(tǒng),滿足監(jiān)管審計要求
職位要求
1.硬性門檻
計算機相關(guān)碩士以上學(xué)歷,5年以上大數(shù)據(jù)架構(gòu)經(jīng)驗,主導(dǎo)過千萬小時級語音數(shù)據(jù)處理項目
精通Hadoop/Spark/Flink生態(tài)體系,具備Kubernetes云原生架構(gòu)設(shè)計經(jīng)驗
深入理解語音數(shù)據(jù)處理技術(shù)棧(Kaldi/ESPnet等開源框架,聲學(xué)模型優(yōu)化經(jīng)驗)
持有CDMP/CISP數(shù)據(jù)治理認證,熟悉GDPR/《數(shù)據(jù)安全法》等合規(guī)要求
2.差異化能力
具備語音數(shù)據(jù)特殊場景認知:方言識別中的噪聲處理、多語種語料庫建設(shè)經(jīng)驗
擁有數(shù)據(jù)資產(chǎn)商業(yè)化經(jīng)驗:主導(dǎo)過語音數(shù)據(jù)API服務(wù)變現(xiàn)或訓(xùn)練數(shù)據(jù)交易項目
技術(shù)前瞻性:熟悉聯(lián)邦學(xué)習(xí)在語音數(shù)據(jù)共享中的應(yīng)用,了解大模型時代的數(shù)據(jù)治理挑戰(zhàn)