1、维护代理质量。
代理IP入库前需要验证,最简单的方法是启动请求状态码是否为200。入库后也需要定期验证。毕竟IP失效了;
2、代理IP存储。
3、redis可用于存储这些有效代理,数据结构采用Set最好,不允许同一个IP存储。
通过代理IP池,使用起来非常方便,但是也必须考虑目标站点的一些策略,如header中的限制:
1、User-Agent:User-Agent:用户代理。不同的浏览器有不同的用户代理。你可以收集一些常见的浏览器,然后随机发送请求;
2、Referer:访问的来源是哪个链接,制作防止图像的盗窃链可以用它来处理,当然这个Refer也可以伪造
3、cookie:很多网站只有登录才能操作,所以这个cookie信息很重要。没有cookie,很容易被识别为伪造请求。可以通过JS在本地,根据服务器返回的一些信息,在本地设置cookie。当然,实际操作并不简单,具体情况具体分析。
在选择代理IP的时候尽量选择正规IP池纯净的,例如太阳http。