zo2o女人另类zo2o洗浴,18禁黄无遮挡网站免费,国产精品高潮呻吟av久久黄,aaa日本高清在线播放免费观看,99精品人妻少妇一区二区

充分了解一下反爬策略

jj 2022-07-27

網(wǎng)絡(luò)爬蟲技術(shù)已經(jīng)成為一種非常流行的網(wǎng)絡(luò)技術(shù),對于一個內(nèi)容驅(qū)動的網(wǎng)站來說,不可避免的會受到網(wǎng)絡(luò)爬蟲技術(shù)的光顧。優(yōu)秀的爬蟲技術(shù)不會干擾網(wǎng)站的正常運(yùn)行,而糟糕的爬蟲技術(shù)會帶來很多麻煩,因為他們的頁面抓取能力差,經(jīng)常會有幾十個或者上百個重復(fù)請求,增加了網(wǎng)絡(luò)站點(diǎn)的訪問壓力,導(dǎo)致站點(diǎn)訪問緩慢甚至無法訪問。
 


為了避免這種情況,網(wǎng)站會使用反抓取技術(shù),一般從一般用戶請求的頭、一般用戶行為、網(wǎng)站目錄、數(shù)據(jù)加載方式三個方面來實現(xiàn)反爬蟲。
 
1.穿越報頭反爬蟲技術(shù)
 
普通用戶要求的頭反爬蟲技術(shù)是最常見的反爬蟲技術(shù)策略。很多網(wǎng)站會檢測Headers的User-Agent,有些網(wǎng)站會檢測Referer(有些資源網(wǎng)站的防盜鏈就是檢測Referer)。如果遇到這種反爬蟲技術(shù)機(jī)制,可以直接給爬蟲技術(shù)添加頭,把瀏覽器的User-Agent復(fù)制到爬蟲技術(shù)頭;或?qū)eferer值修改為目標(biāo)網(wǎng)絡(luò)站點(diǎn)的域名。對于檢測報頭的反爬蟲技術(shù),在爬蟲技術(shù)中修改或添加報頭可以很好的繞過它。
 
2.基于一般用戶行為的反爬蟲技術(shù)
 
還有一些網(wǎng)站會檢測到一般的用戶行為,比如同一個IP在短時間內(nèi)多次訪問同一個頁面,或者同一個賬號在短時間內(nèi)多次做同樣的操作。
 
大部分網(wǎng)點(diǎn)都是前一種情況,對于這種情況可以使用IP代理,精靈ip代理適用于多個平臺,在全國各地都有自營的服務(wù)器節(jié)點(diǎn),有大量的IP地址,就可以每隔幾個請求就換一個IP,這在requests或者urllib2中很容易做到,所以可以很容易的繞過第一道反爬蟲技術(shù)。
 
在第二種情況下,下一個請求可以在每次請求后隨機(jī)間隔幾秒鐘發(fā)出。一些存在邏輯漏洞的網(wǎng)站,可以通過多次請求、注銷、再次登錄、繼續(xù)請求的方式,繞過同一賬號不能在短時間內(nèi)多次發(fā)出相同請求的限制。
 
3.動態(tài)頁面的反爬蟲技術(shù)
 
以上情況大多出現(xiàn)在靜態(tài)頁面,以及一些網(wǎng)站上。我們需要抓取的數(shù)據(jù)是通過ajax請求獲取的,或者是Java生成的。首先,使用Firebug或HttpFox來分析網(wǎng)絡(luò)請求。如果能找到ajax請求,分析出具體的參數(shù)和響應(yīng)的具體含義,就可以采用上面的方法,直接用requests或者urllib2模擬ajax請求,分析響應(yīng)的json,得到需要的數(shù)據(jù)。
 
反爬蟲和爬蟲是相輔相成的,遵守目標(biāo)站點(diǎn)的規(guī)則才是利人利己的好爬蟲。

掃一掃,咨詢微信客服