爬虫ip吧 关注:39贴子:117
  • 3回复贴,共1

爬虫时出现ip被封怎么处理?

只看楼主收藏回复

python爬虫为何被封?其中最直接的因素的便是访问速度过快,这个别说爬取抓取了,即便用户自己点击过快也是会被提示访问频率过快的。网络爬虫的访问速度若是一直都很快,并且都使用同一个IP地址访问,这样很快IP就会被封的。
面对这个问题,网络爬虫一般是怎么处理的呢?无外乎是两种方法,第一降低访问速度,第二切换IP访问。


IP属地:江苏1楼2021-08-10 09:23回复
    1.爬虫降低访问速度
    由于上文所说的访问速度过快会引起IP被封,那么最直观的办法便是降低访问速度,如此就能防止了我们的IP被封的问题。但呢,降低速度,爬虫的效率就降低,关键还是要降低到什么程度?
    首先要测试出网站设置的限制速度阈值,根据限速设置合理的访问速度。
    建议不要设固定的访问速度,能够设置在一个范围之内,防止过于规律而被系统检测到,从而导致IP被封。
    降低了访问速度,难以避免的影响到了爬取的抓取效率,不能高效地抓取,如此的抓取速度与人工抓取有何区别呢?都没有了使用爬虫抓取的优势了。


    IP属地:江苏2楼2021-08-10 09:24
    回复
      2.爬虫切换IP访问
      既然单个爬虫被控制了速度,但我们可以使用多个爬虫同时去抓取啊!
      我们可以使用多线程,多进程,这里要配合使用代理,不同的线程使用不同的IP地址,就像是同时有不同的用户在访问,如此就能极大地提高爬虫的爬取效率了。


      IP属地:江苏3楼2021-08-10 09:24
      回复
        对于能够提示效率的代理IP,爬虫要选择优质的使用,质量差的也是会影响效果的,可以考虑使用HTTP代理http://http.taiyangruanjian.com/?utm-source=wltg&utm-keyword=?03,像IP数量和质量都相当的不错,大家去测试使用下就知道了。
        以上介绍了关于爬虫IP被封的问题分析,从原因到解决办法,不建议粗暴使用爬虫,合理的使用,效果更加好。并且降低爬虫的速度,能够减轻爬虫带给网站的压力,这对双方都是有好处的。


        IP属地:江苏4楼2021-08-11 09:50
        回复