• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

nodejs有哪些爬虫框架?

nodejs 程序猿 4年前 (2021-12-27) 34次浏览 已收录 0个评论

nodejs有哪些爬虫框架?下面本篇文章给大家介绍几款nodejs爬虫框架。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。

node-spider

基于nodejs的通用爬虫框架,得益于nodejs的高性能异步io,爬虫的执行效率非常高。目前版本仅支持http/https协议,可以设置header属性和cookie会话保持,暂时还不支持代理。

软件架构

该框架主要分为调度器(node-shceduler) 下载器(node-downloader) 请求(node-request) 结果(node-response) 爬虫(node-spider) 数据抽取(node-pipeline)。 程序运行时:'调度器'从爬虫抽取'请求'或者'结果',如果是'请求'交给'下载器',如果是对象则交给node-pipeline保存数据。

node-crawler

Node Crawler:强大的Node开源爬虫

目标打造成Node社区最强大和流行的爬虫/内容抽取工具库,且支持生产环境。

特性:

  • 服务端DOM和自动jQuery注入,使用Cheerio(默认)或JSDOM

  • 可配置的连接池大小和重试次数

  • Control rate limit

  • 支持设置请求队列优先级

  • forceUTF8模式可让爬虫处理字符集编码探测和转换

  • 兼容Node 4.x及以上版本

更新日志:https://github.com/bda-research/node-crawler/blob/master/CHANGELOG.md

ppspider

来源gaodaima#com搞(代@码网

这是一个使用nodejs + typescript编写的web爬虫框架。

支持puppeteer爬取动态网页,支持request+cheerio爬取静态网页;

提供了任务队列管理和调度,内置过滤器,轻松实现连接去重;

拥有webUi管理界面,爬取进度一目了然;

应用运行状态可保存,重启应用可继续爬取;

框架提供了可扩展的接口实现,方便用户自定义队列,过滤器,以及worker工厂类,另外还内置了用户自定义交互界面的实现方案,实现爬取结果的实时展示;

说明:

ppspider框架使用 nodejs + typescript 编写,在使用的时候,也是采用 nodejs + typescript 编写爬虫脚本

更多nodejs相关技术文章,请访问 nodejs 栏目进行学习!

以上就是nodejs有哪些爬虫框架?的详细内容,更多请关注gaodaima搞代码网其它相关文章!


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:nodejs有哪些爬虫框架?

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址