node.js爬虫框架node-crawler初体验

时间：2021-05-26

百度爬虫这个词语，一般出现的都是python相关的资料。

py也有很多爬虫框架，比如scrapy，Portia，Crawley等。

之前我个人更喜欢用C#做爬虫。

随着对nodejs的熟悉。发现做这种事情还是用脚本语言适合多了，至少不用写那么多的实体类。而且脚本一般使用比较简单。　　

在github上搜索node+spider，排名第一的就是node-crawler

github:https://github.com/bda-research/node-crawler

简单使用

npm 安装：

npm install crawler

new一个crawler对象

然后往crawler队列里面不停的加url就行了，

// 将一个URL加入请求队列，并使用默认回调函数c.queue('http://']);

控制并发速度

爬虫框架一般都是同时去爬多个页面，但是速度过快会触发目标网站的反爬虫机制，也同时影响别人网站的性能。

控制最大的并发数量

使用慢速模式

使用参数rateLimit启用慢速模式，两次请求之间会闲置rateLimit毫秒，而maxConnections将被强行修改为 1 。

下载图片等静态文件

以上就是node.js爬虫框架node-crawler初体验的详细内容，更多关于爬虫框架node-crawler的资料请关注其它相关文章！

相关文章