1、搭建數(shù)據(jù)采集平臺,通過對數(shù)據(jù)的抓取、解析、調(diào)度、存儲等模塊的拆分與優(yōu)化,構(gòu)建和完善統(tǒng)一的抓取服務平臺;
2、設計爬取、調(diào)度和抽取算法,優(yōu)化系統(tǒng);
3、熟識Hadoop生態(tài)圈技術(shù)體系對離線計算、內(nèi)存計算和流式計算均有深刻理解如Hadoop、Hive、Spark、Flink、Impala 等;
4、解決爬蟲和數(shù)據(jù)庫出現(xiàn)的問題并不斷維護、優(yōu)化程序。
任職資格:
1、本科及以上學歷,計算機相關專業(yè),2年左右相關經(jīng)驗;
2、Python 開發(fā)的經(jīng)驗,爬蟲開發(fā)經(jīng)驗,熟識MySQL或了解PostgreSQL 數(shù)據(jù)庫能協(xié)助檢查數(shù)據(jù)入庫環(huán)節(jié);
3、熟識整個爬蟲的設計及實現(xiàn)流程.精通網(wǎng)頁抓取原理及技術(shù),精通正則表達式從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
4、具有搜尋相關技術(shù)研發(fā)、數(shù)據(jù)挖掘、數(shù)據(jù)處理、自然語言處理、信息檢索、機器學習背景者優(yōu)先。
職位福利:五險一金、加班補助、周末雙休、員工旅游、定期體檢