简述爬虫的工作原理及三个模块

jj 2021-11-24

传统爬虫从一个或几个初始网页的URL开始，获取初始网页上的URL，在抓取网页的过程中，不断从当前网页中提取新的URL，并将其放入队列中，直到满足系统的某个停止条件。聚焦爬虫的工作流程比较复杂，需要根据一定的网页分析算法过滤掉不相关的链接，保留有用的链接，放到等待抓取的URL队列中。

然后，它会按照一定的搜索策略从队列中选择下一页的URL，重复上述过程，直到达到系统的某个条件。此外，爬虫抓取的所有网页都会被系统存储，进行一定程度的分析和过滤，并为后续的查询和检索建立索引。因此，一个完整的爬虫一般包括以下三个模块:

一、网络请求模块

二、爬行过程控制模块

三.内容分析和提取模块

网络请求

我们常说爬虫其实就是一堆http(s)请求，找到要抓取的链接，然后发送请求包得到返回包。当然，h5中也有基于流的HTTP保活或websocket协议。

过程控制

所谓爬行过程就是爬什么样的规则顺序。当爬行的任务比较小时，爬行的过程控制不会太麻烦。许多爬行框架已经为您做了一些事情，比如scrapy，您只需要自己实现解析代码。

内容分析和提取

请求头的Accept-Encoding字段表示浏览器告诉服务器它支持的压缩算法(目前gzip是最流行的)。如果服务器开启压缩，响应体返回时会被压缩，爬虫需要自己解压。

精灵ip代理平台提供HTTP代理IP和https代理IP，非常适合爬虫工作，高效、稳定、安全、易操作，是爬虫工作者首选的专业优质代理IP服务提供商。