日日噜夜夜草|一级黄色录像高清版|调教白富美加勒比久久|亚洲欧洲精品婷婷|日韩综合无码色色|日韩精品一区妖精视频|亚洲无码中文字幕hd|99亚洲思思丝袜|手机看片国产精品大胆亚洲|成人无码视频一区二区在线播放

更新于 8月20日

Python 高級(jí)開(kāi)發(fā)工程師(偏爬蟲方向)

2-2.8萬(wàn)
  • 上海青浦區(qū)
  • 5-10年
  • 本科
  • 全職
  • 招1人

職位描述

ScrapyMySQLMongoDBPythonPandasNumPy計(jì)算機(jī)軟件
一、崗位職責(zé)
1.爬蟲架構(gòu)與核心開(kāi)發(fā)
基于 Python 語(yǔ)言主導(dǎo)高性能爬蟲系統(tǒng)的架構(gòu)設(shè)計(jì)與核心模塊開(kāi)發(fā),充分發(fā)揮 Python 在爬蟲領(lǐng)域的優(yōu)勢(shì),確保系統(tǒng)能高效、穩(wěn)定地應(yīng)對(duì)大規(guī)模數(shù)據(jù)采集任務(wù)。
深度優(yōu)化 Python 爬蟲框架(如 Scrapy)的性能,包括但不限于對(duì)調(diào)度器、下載器、管道等核心組件的定制化開(kāi)發(fā),提升爬蟲的并發(fā)處理能力和數(shù)據(jù)抓取效率。
運(yùn)用 Python 相關(guān)技術(shù)解決爬蟲開(kāi)發(fā)中的復(fù)雜問(wèn)題,如利用異步編程(asyncio、aiohttp)提升網(wǎng)絡(luò)請(qǐng)求效率,借助多線程、多進(jìn)程處理 CPU 密集型任務(wù)等。
2.反爬對(duì)抗與技術(shù)突破
運(yùn)用 Python 深入研究各類網(wǎng)站和 APP 的反爬機(jī)制,針對(duì) JS 混淆、動(dòng)態(tài)渲染、驗(yàn)證碼等反爬手段,開(kāi)發(fā)相應(yīng)的 Python 解決方案,如使用 PyExecJS 執(zhí)行 JS 代碼、Selenium 結(jié)合 Python 進(jìn)行動(dòng)態(tài)頁(yè)面渲染處理等。
基于 Python 構(gòu)建反反爬策略體系,實(shí)現(xiàn) IP 代理池的動(dòng)態(tài)管理、請(qǐng)求頭的智能偽裝、Cookie 的自動(dòng)處理等功能,保障爬蟲的持續(xù)穩(wěn)定運(yùn)行。
3.數(shù)據(jù)處理與系統(tǒng)優(yōu)化
使用 Python 對(duì)爬取到的海量數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、存儲(chǔ)等處理,熟練運(yùn)用Pandas、NumPy 等數(shù)據(jù)處理庫(kù)提升數(shù)據(jù)處理效率和質(zhì)量。
負(fù)責(zé) Python 爬蟲系統(tǒng)的性能監(jiān)控與優(yōu)化,通過(guò)日志分析、性能測(cè)試等手段,定位系統(tǒng)瓶頸并進(jìn)行針對(duì)性優(yōu)化,降低資源消耗,提高系統(tǒng)的可靠性。
與團(tuán)隊(duì)協(xié)作,將 Python 爬蟲系統(tǒng)與數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析等平臺(tái)進(jìn)行無(wú)縫對(duì)接,實(shí)現(xiàn)數(shù)據(jù)的全流程自動(dòng)化處理。
4.團(tuán)隊(duì)協(xié)作與技術(shù)沉淀
沉淀 Python 爬蟲開(kāi)發(fā)相關(guān)的技術(shù)文檔、工具類庫(kù)和解決方案,推動(dòng)團(tuán)隊(duì)技術(shù)積累和復(fù)用。
二、任職要求
1.Python 技術(shù)深度
精通 Python 語(yǔ)言特性及高級(jí)用法,有 5 年以上 Python 開(kāi)發(fā)經(jīng)驗(yàn),其中至少 3 年專注于爬蟲方向開(kāi)發(fā),能熟練運(yùn)用 Python 解決爬蟲開(kāi)發(fā)中的復(fù)雜技術(shù)問(wèn)題。
深入理解 Python 爬蟲相關(guān)框架(Scrapy、BeautifulSoup、Requests 等)的底層原理,具備豐富的框架二次開(kāi)發(fā)經(jīng)驗(yàn),能根據(jù)業(yè)務(wù)需求定制化框架功能。
熟練掌握 Python 異步編程(asyncio、aiohttp、tornado 等)、多線程、多進(jìn)程等并發(fā)編程技術(shù),并在爬蟲項(xiàng)目中有成功的大規(guī)模應(yīng)用案例。
熟悉 Python 與其他技術(shù)的集成應(yīng)用,如 Python 與數(shù)據(jù)庫(kù)(MySQL、MongoDB、Redis)的高效交互,Python 與 Docker、Kubernetes 等容器化技術(shù)的結(jié)合使用。
2.爬蟲專業(yè)能力
具備豐富的 Web 端和 APP 端爬蟲開(kāi)發(fā)經(jīng)驗(yàn),熟悉各類網(wǎng)頁(yè)解析技術(shù)(XPath、CSS 選擇器、正則表達(dá)式等),能高效提取網(wǎng)頁(yè)中的目標(biāo)數(shù)據(jù)。
深入了解常見(jiàn)的反爬機(jī)制(如 IP 封鎖、UA 驗(yàn)證、Cookie 驗(yàn)證、驗(yàn)證碼、動(dòng)態(tài)加載等),并能運(yùn)用 Python 技術(shù)制定有效的應(yīng)對(duì)策略。
具備一定的逆向工程能力,能使用 Python 相關(guān)工具(如 Frida、Unidbg 等)對(duì) APP 進(jìn)行逆向分析,解析加密協(xié)議和數(shù)據(jù)。
3.其他技能要求
熟悉 Linux 操作系統(tǒng),能熟練使用 Python 腳本進(jìn)行系統(tǒng)運(yùn)維和自動(dòng)化部署,具備良好的問(wèn)題排查和解決能力。
具備良好的代碼規(guī)范和文檔編寫習(xí)慣,能寫出高質(zhì)量、可維護(hù)的 Python 代碼。
擁有較強(qiáng)的學(xué)習(xí)能力和創(chuàng)新精神,能快速掌握新技術(shù)并應(yīng)用到實(shí)際工作中,應(yīng)對(duì)不斷變化的爬蟲技術(shù)挑戰(zhàn)。
加分項(xiàng)
1.有大型分布式 Python 爬蟲系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)經(jīng)驗(yàn),能處理日均千萬(wàn)級(jí)以上數(shù)據(jù)采集任務(wù)優(yōu)先
2.有AIGC經(jīng)驗(yàn),有RAG,Langchain,dify等AI框架開(kāi)發(fā)經(jīng)驗(yàn)優(yōu)先

工作地點(diǎn)

上海青浦區(qū)虹橋世界中心E1幢301室

職位發(fā)布者

鄭文曉/人事經(jīng)理

三日內(nèi)活躍
立即溝通