使用代理ip服务器抓取网页时，我的IP还会被屏蔽吗？

jj 2022-01-17

在刚接触python爬虫的时候，我们总会遇到爬虫在采集数据时被阻塞的问题。我想每个人都遇到过类似的问题。今天我们就从http代理ip的角度来讨论如何解决这个问题。使用代理ip服务器抓取网页时，我的IP还会被屏蔽吗？

通常，有几种方法可以检查被阻止的爬网程序:

首先，检查JavaScript。如果你从web服务器收到的页面是空白的，缺乏信息，或者它遇到了不符合你的预期(或者你在浏览器中看到的)的情况，可能是因为网站创建页面的JavaScript执行有问题。

第二，查看普通浏览器提交的参数。如果您打算向网站提交表单或POST请求，请记得检查页面内容，查看您要提交的每个字段是否都已填写，格式是否正确。使用Chrome浏览器的网页面板(快捷键F12打开开发者控制台，然后点击“网络”查看)查看发送到网站的POST命令，确保你的每个参数都是正确的。

第三，有合法的Cookie吗？如果您已经登录网站但无法保持登录状态，或者网站上有其他“登录状态”异常，请检查您的cookie。确保在加载每个页面时正确调用cookie，并且每次发出请求时都将您的cookie发送到网站。

第四，IP被禁了吗？如果您在客户端遇到HTTP错误，尤其是403禁止访问错误，这可能表明网站已经将您的IP视为机器人，不再接受您的任何请求。要么等待您的IP地址从网站黑名单中删除，要么更改IP地址。如果你确定自己没有被封禁，那就查看下面的内容。

第五，确保你的爬虫在网站上的速度不是特别快。快速收集是一个坏习惯，会给网管的服务器带来沉重的负担，让你陷入违法的境地，也是IP被网站列入黑名单的首要原因。给你的爬虫增加延迟，让它们在夜深人静的时候运行。记住:匆忙编写程序或收集数据是项目管理不善的表现；我们应该提前计划以避免恐慌。

第六，还有一件事必须做:修改你的请求头！一些网站会屏蔽任何自称爬行动物的访问者。如果您不确定请求头的值是否合适，请使用自己浏览器的请求头。