爬蟲ip代理采集被封了怎么辦?
jj
2022-03-21
爬蟲被封了怎么辦?在用代理ip軟件爬取信息的過程中,如果爬取頻率過高或者使用多線程,很容易被禁止訪問。網(wǎng)站的反爬蟲機(jī)制一般是基于IP和用戶的用戶代理來識(shí)別爬蟲。因此,爬蟲中的開發(fā)者通常需要采取兩種措施來解決這個(gè)問題:

1.減緩抓取速度,減輕目標(biāo)網(wǎng)站壓力。不過這樣會(huì)減少單位時(shí)間類的抓取量。
2.第二種方法是突破反爬蟲機(jī)制,通過設(shè)置代理IP等手段繼續(xù)高頻爬行。但這需要大量穩(wěn)定的代理IP軟件。
IP代理軟件可以免費(fèi)搜索,但是不一定穩(wěn)定,還有收費(fèi)的,比如精靈IP代理。
下面介紹兩種方式:基于ADSL撥號(hào)的常見解決方案。通常在搶的過程中禁止訪問時(shí),可以再次撥打ADSL獲取新的IP,這樣就可以繼續(xù)搶了。但在多網(wǎng)站多線程抓取的情況下,如果禁止了某個(gè)網(wǎng)站的抓取,也會(huì)影響到其他網(wǎng)站的抓取,整體上也會(huì)降低抓取速度。一種可能的解決方案也是基于ADSL撥號(hào)。不同的是需要兩臺(tái)能夠ADSL撥號(hào)的服務(wù)器,這兩臺(tái)服務(wù)器在搶的過程中作為代理使用。假設(shè)有兩臺(tái)服務(wù)器A和B可以撥打ADSL。爬蟲運(yùn)行在C服務(wù)器上,使用A作為代理訪問外部網(wǎng)絡(luò)。如果爬行過程中禁止訪問,立即將代理切換到B,然后重?fù)蹵,如果再次禁止訪問,切換到A作為代理,B再次撥號(hào),以此類推。綜上所述,最簡單的方法就是購買現(xiàn)成的代理IP軟件產(chǎn)品。