爬蟲開發(fā)工程師
工作地點
元中心
任職要求
1. 負責公司業(yè)務相關數據爬取任務的需求分析、設計、開發(fā)及維護;
2. 開發(fā)高效穩(wěn)定的網頁爬蟲,解決反爬機制,確保數據抓取的完整性及實時性;
3. 提取、清洗和處理抓取到的網頁數據,將其存儲至數據庫;
4. 定期升級優(yōu)化爬蟲程序,提升抓取效率,擴展抓取種類;
5. 確保數據采集的合法性和合規(guī)性,與法律法規(guī)保持一致;
6. 配合數據清洗和分析團隊,提供抓取的原始數據支持。
崗位要求:
1. 本科及以上學歷,計算機相關專業(yè)優(yōu)先考慮;
2. 熟悉 Python 編程語言,精通爬蟲框架;
3. 熟悉瀏覽器模擬、動態(tài)網頁抓取相關技術,如 Selenium、Pyppeteer 等;
4. 對反爬機制有較為深入的理解,熟悉常見的反爬處理手段(如驗證碼識別、代理池、多線程抓取等);
5. 熟練使用 MySQL 或 NoSQL 數據庫(如 MongoDB、Redis 等),能夠獨立完成數據的存儲和管理;
6. 對數據清洗及結構化處理有一定的基礎;
7. 有較強的編碼能力、問題解決能力,以及良好的代碼規(guī)范意識;
8. 有完整的爬蟲項目經驗或協(xié)作案例者優(yōu)先。
加分項:
1. 有分布式爬蟲開發(fā)經驗者優(yōu)先;
2. 對 NLP、數據挖掘感興趣或有經驗者優(yōu)先;
3. 了解或熟悉云服務器相關部署技巧者優(yōu)先