網(wǎng)絡(luò)爬蟲(chóng)方向
崗位職責(zé):
1.負(fù)責(zé)設(shè)計(jì)、開(kāi)發(fā)和維護(hù)高效穩(wěn)定的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),確保數(shù)據(jù)抓取的準(zhǔn)確性及實(shí)時(shí)性。
2.優(yōu)化網(wǎng)絡(luò)請(qǐng)求性能,解決高并發(fā)、分布式環(huán)境下的爬蟲(chóng)技術(shù)難題。
3.分析并繞過(guò)目標(biāo)網(wǎng)站的反爬機(jī)制(如IP封禁、驗(yàn)證碼、動(dòng)態(tài)加密等)。
4.實(shí)現(xiàn)數(shù)據(jù)清洗、結(jié)構(gòu)化存儲(chǔ)(如MySQL、Elasticsearch等),支持業(yè)務(wù)部門數(shù)據(jù)需求。
5.與算法、數(shù)據(jù)分析團(tuán)隊(duì)協(xié)作,提供高質(zhì)量數(shù)據(jù)源。
任職要求:
必需技能:
1.扎實(shí)的Java基礎(chǔ),精通集合、多線程、IO/NIO、網(wǎng)絡(luò)編程等。
2.熟悉HTTP/HTTPS協(xié)議及網(wǎng)絡(luò)通信機(jī)制,熟練使用HttpClient、OkHttp等工具。
3.具備爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn),掌握WebMagic、Jsoup、Selenium等至少一種框架。
4.熟悉主流數(shù)據(jù)庫(kù)(MySQL、Redis)及SQL優(yōu)化,了解NoSQL技術(shù)。
5.熟悉HTML/XML/JSON解析,精通XPath、正則表達(dá)式等數(shù)據(jù)提取技術(shù)。
優(yōu)先條件:
1.有分布式爬蟲(chóng)經(jīng)驗(yàn)(如Redis分布式隊(duì)列、Zookeeper調(diào)度)。
2.熟悉反反爬策略(代理IP池、請(qǐng)求頭動(dòng)態(tài)偽裝、瀏覽器指紋模擬)。
3.了解JS動(dòng)態(tài)渲染頁(yè)面爬?。≒hantomJS、Puppeteer)。
4.有大規(guī)模數(shù)據(jù)ETL、Hadoop/Spark處理經(jīng)驗(yàn)者優(yōu)先。
5.有開(kāi)源爬蟲(chóng)項(xiàng)目貢獻(xiàn)或獨(dú)立開(kāi)發(fā)爬蟲(chóng)框架者加分