正确使用ip代理应付反爬虫策略
jj
2021-11-19
最经典的反爬虫策略是“验证码”。因为验证码是图片,用户只需要输入一次就可以登录成功。然而,在我们的程序捕获数据的过程中,我们需要不断地登录。比如我们需要抓取1000个用户的个人信息,需要填写1000次验证码,但是手工输入验证码是不现实的。因此,验证码的出现一度难倒了很多网络爬虫工程师。
解决方案:
1.分析网站的验证码机制,从网站后台或前端获取验证码(文本形式)。这种方法只适用于少数网站,因为我们一般很难获得验证码。
2.利用图像识别技术识别验证码文本。
3.通常,一些网站不仅是个人电脑端的,也是移动端的。很有可能手机端网站不包含验证码。所以试试手机网站,可能会有意想不到的收获。
另一个反爬虫策略是封ip和账号。刚开始用机器抢新浪微博,导致我的账号被封,IP短时间被封,遇到类似问题一定要多加小心。
解决方案:
1.最简单的解决方法:限制程序捕获频率,每隔几秒钟登录一次(如果对捕获数量没有要求,可以用这个方法;如果要捕获大量数据,就不应该捕获的日期)。
2.由于账号是用IP封的,我会用多个账号多台机器去抓取,既解决了反爬虫的问题,也相当于分流和减轻了单机的带宽压力。
3.事实证明,即使我们采用一两种方法,有些网站也会被屏蔽。在这种情况下,我们只能使用ip代理来捕获我们想要的数据,到目前为止,基本上解决封账号封IP的问题还是很有效的。
上一篇:缺少ip代理爬虫工作量大无法完成
下一篇:决定代理IP速度慢的原因有很多