"崗位概述
1、負(fù)責(zé)設(shè)計和開發(fā)分布式網(wǎng)絡(luò)爬蟲系統(tǒng)
2、研究爬蟲策略和防屏蔽規(guī)則,解決封賬號、封IP、驗證碼等難點攻克,提升數(shù)據(jù)抓取的效率和質(zhì)量
3、負(fù)責(zé)爬蟲核心算法和策略優(yōu)化,提升爬蟲系統(tǒng)的穩(wěn)定性、可擴展性
4、實時監(jiān)控爬蟲任務(wù)的執(zhí)行狀況,及時處理爬蟲異常
要求項
教育背景要求(??萍耙陨?
工作經(jīng)驗(3 年以上)
知識與技能(1. 有實際分布式爬蟲系統(tǒng)開發(fā)經(jīng)驗,熟悉scrapy和scrapy-redis框架及其參數(shù)調(diào)優(yōu)
2. 熟悉使用request,urllib模塊進行源碼下載;Xpath,BeautifulSoup,Re數(shù)據(jù)提取
3. 能夠處理圖片驗證碼、滑塊驗證碼、二維碼登錄,短信驗證碼;JS反爬,APP抓取數(shù)據(jù),多緯度獲取數(shù)據(jù)
4. 熟悉使用selenium,appium,uiautomator2,參與手機群控系統(tǒng)的規(guī)劃,設(shè)計與開發(fā)
5. 熟悉網(wǎng)絡(luò)抓包工具charles,fiddler,mitmproxy抓包分析,請求包的偽造
6. 使用flask編寫數(shù)據(jù)接口,查詢elasticsearch,mysql,mogondb數(shù)據(jù)返回前端
7. 具有hadoop,hdfs,spark,kafka,elasticsearch等大數(shù)據(jù)使用經(jīng)驗)
其他(具有淘寶、抖音、小紅書開發(fā)經(jīng)驗優(yōu)先)"