正确使用ip代理应付反爬虫策略

jj 2021-11-19

最经典的反爬虫策略是“验证码”。因为验证码是图片，用户只需要输入一次就可以登录成功。然而，在我们的程序捕获数据的过程中，我们需要不断地登录。比如我们需要抓取1000个用户的个人信息，需要填写1000次验证码，但是手工输入验证码是不现实的。因此，验证码的出现一度难倒了很多网络爬虫工程师。

解决方案:

1.分析网站的验证码机制，从网站后台或前端获取验证码(文本形式)。这种方法只适用于少数网站，因为我们一般很难获得验证码。

2.利用图像识别技术识别验证码文本。

3.通常，一些网站不仅是个人电脑端的，也是移动端的。很有可能手机端网站不包含验证码。所以试试手机网站，可能会有意想不到的收获。

另一个反爬虫策略是封ip和账号。刚开始用机器抢新浪微博，导致我的账号被封，IP短时间被封，遇到类似问题一定要多加小心。

解决方案:

1.最简单的解决方法:限制程序捕获频率，每隔几秒钟登录一次(如果对捕获数量没有要求，可以用这个方法；如果要捕获大量数据，就不应该捕获的日期)。

2.由于账号是用IP封的，我会用多个账号多台机器去抓取，既解决了反爬虫的问题，也相当于分流和减轻了单机的带宽压力。

3.事实证明，即使我们采用一两种方法，有些网站也会被屏蔽。在这种情况下，我们只能使用ip代理来捕获我们想要的数据，到目前为止，基本上解决封账号封IP的问题还是很有效的。