简述爬虫的工作原理及三个模块

jj 2021-11-24

传统爬虫从一个或几个初始网页的URL开始,获取初始网页上的URL,在抓取网页的过程中,不断从当前网页中提取新的URL,并将其放入队列中,直到满足系统的某个停止条件。聚焦爬虫的工作流程比较复杂,需要根据一定的网页分析算法过滤掉不相关的链接,保留有用的链接,放到等待抓取的URL队列中。
 

然后,它会按照一定的搜索策略从队列中选择下一页的URL,重复上述过程,直到达到系统的某个条件。此外,爬虫抓取的所有网页都会被系统存储,进行一定程度的分析和过滤,并为后续的查询和检索建立索引。因此,一个完整的爬虫一般包括以下三个模块:
 
一、网络请求模块
 
二、爬行过程控制模块
 
三.内容分析和提取模块
 
网络请求
 
我们常说爬虫其实就是一堆http(s)请求,找到要抓取的链接,然后发送请求包得到返回包。当然,h5中也有基于流的HTTP保活或websocket协议。
 
过程控制
 
所谓爬行过程就是爬什么样的规则顺序。当爬行的任务比较小时,爬行的过程控制不会太麻烦。许多爬行框架已经为您做了一些事情,比如scrapy,您只需要自己实现解析代码。
 
内容分析和提取
 
请求头的Accept-Encoding字段表示浏览器告诉服务器它支持的压缩算法(目前gzip是最流行的)。如果服务器开启压缩,响应体返回时会被压缩,爬虫需要自己解压。
 
精灵ip代理平台提供HTTP代理IP和https代理IP,非常适合爬虫工作,高效、稳定、安全、易操作,是爬虫工作者首选的专业优质代理IP服务提供商。
 

扫一扫,咨询微信客服