zo2o女人另类zo2o洗浴,18禁黄无遮挡网站免费,国产精品高潮呻吟av久久黄,aaa日本高清在线播放免费观看,99精品人妻少妇一区二区

網(wǎng)站的反爬蟲(chóng)策略都是怎么做的?

jj 2021-12-16

自從有了自己的互聯(lián)網(wǎng)網(wǎng)絡(luò),就出現(xiàn)了爬蟲(chóng)和反爬蟲(chóng)。網(wǎng)站越大,越成熟的網(wǎng)站,其反爬蟲(chóng)機(jī)制越完善,初始的IP限制、驗(yàn)證碼限制等限制。精靈ip代理將和大家一起了解該網(wǎng)站的反爬蟲(chóng)策略以及爬蟲(chóng)的反應(yīng)。
 
 
1.用戶(hù)行為反爬蟲(chóng)
 
有些網(wǎng)站會(huì)檢測(cè)到用戶(hù)行為,比如同一個(gè)IP短時(shí)間內(nèi)多次訪問(wèn)同一個(gè)頁(yè)面,或者同一個(gè)賬號(hào)短時(shí)間內(nèi)多次做同一個(gè)操作。
 
大多數(shù)網(wǎng)站都是前一種情況,可以通過(guò)使用IP代理來(lái)解決。我們可以在檢測(cè)后將代理IP保存在文件中,但是這種方法并不可取,而且代理IP失敗的概率很高,所以從專(zhuān)門(mén)的代理IP網(wǎng)站上實(shí)時(shí)抓取是一個(gè)不錯(cuò)的選擇。
 
在第二種情況下,下一個(gè)請(qǐng)求可以在每個(gè)請(qǐng)求之后的幾秒鐘的隨機(jī)時(shí)間間隔內(nèi)發(fā)出。一些存在邏輯漏洞的網(wǎng)站可以通過(guò)多次請(qǐng)求、注銷(xiāo)、再次登錄、繼續(xù)請(qǐng)求等方式,繞過(guò)同一賬號(hào)無(wú)法在短時(shí)間內(nèi)多次提出同一請(qǐng)求的限制。
 
對(duì)于cookie,檢查cookie以確定用戶(hù)是否是有效用戶(hù)。需要登錄的網(wǎng)站經(jīng)常使用這種技術(shù)。此外,一些網(wǎng)站的登錄將動(dòng)態(tài)更新認(rèn)證。登錄時(shí),隨機(jī)分配用于登錄身份驗(yàn)證的authentication _ token,authentication _ token將與用戶(hù)提交的登錄名和密碼一起發(fā)送回服務(wù)器。
 
2.動(dòng)態(tài)頁(yè)面的反爬蟲(chóng)
 
有時(shí)抓取目標(biāo)頁(yè)面時(shí),發(fā)現(xiàn)關(guān)鍵信息內(nèi)容為空,只有框架代碼。這是因?yàn)榫W(wǎng)站的信息通過(guò)用戶(hù)帖子的XHR動(dòng)態(tài)返回內(nèi)容信息。這個(gè)問(wèn)題的解決方案是通過(guò)開(kāi)發(fā)者工具(FireBug等)分析網(wǎng)站流量。),找到單獨(dú)的內(nèi)容信息請(qǐng)求(如Json),抓取內(nèi)容信息,得到需要的內(nèi)容。
 
更復(fù)雜的是動(dòng)態(tài)請(qǐng)求的加密,參數(shù)無(wú)法解析,所以無(wú)法抓取。在這種情況下,可以通過(guò)Mechanize、selenium RC調(diào)用瀏覽器內(nèi)核,就像真正的瀏覽器上網(wǎng)一樣,可以最大限度地提高爬行的成功率,但效率會(huì)大打折扣。
 
3.通過(guò)標(biāo)頭進(jìn)行反爬網(wǎng)
 
向用戶(hù)請(qǐng)求標(biāo)頭反爬蟲(chóng)是最常見(jiàn)的反爬蟲(chóng)策略。很多網(wǎng)站會(huì)檢測(cè)到Headers的User-Agent,有些網(wǎng)站會(huì)檢測(cè)到Referer(有些資源網(wǎng)站的防盜鏈就是檢測(cè)Referer)。
 
如果遇到這種反爬蟲(chóng)機(jī)制,可以直接將header添加到爬蟲(chóng)中,將瀏覽器的User-Agent復(fù)制到爬蟲(chóng)的header中?;蛘邔eferer值修改為目標(biāo)網(wǎng)站的域名。對(duì)于檢測(cè)標(biāo)頭的反爬網(wǎng)程序,可以通過(guò)修改或添加爬網(wǎng)程序中的標(biāo)頭來(lái)繞過(guò)它。
 
4.限制一些IP訪問(wèn)
 
免費(fèi)代理IP可以從很多網(wǎng)站獲得。由于爬網(wǎng)程序可以使用這些代理IP來(lái)爬網(wǎng)網(wǎng)站,因此網(wǎng)站也可以使用這些代理IP反向限制,通過(guò)爬網(wǎng)這些IP并將其保存在服務(wù)器上來(lái)限制爬網(wǎng)程序使用代理IP。推薦閱讀:爬蟲(chóng)遇到IP限制和訪問(wèn)時(shí)間間隔限制怎么辦?

掃一掃,咨詢(xún)微信客服