1.pyspider介绍
一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。
- 用Python编写脚本
- 功能强大的WebUI,包含脚本编辑器,任务监视器,项目管理器和结果查看器
- MySQL,MongoDB,Redis,SQLite,Elasticsearch ; PostgreSQL与SQLAlchemy作为数据库后端
- RabbitMQ,Beanstalk,Redis和Kombu作为消息队列
- 任务优先级,重试,定期,按年龄重新抓取等…
- 分布式架构,抓取JavaScript页面,Python 2和3等…
2.pyspider文档
1>中文文档:http://www.pyspider.cn/
2>英文文档:http://docs.pyspider.org/
3.pyspider安装
打开cmd命令行工具,执行命令
pip install pyspider
出现下图则安装成功
4.pyspider启动服务,进入WebUI界面
安装pyspider后,打开cmd命令工具,执行命令来启动服务器
pyspider
出现下图则启动服务成功,默认地址端口为127.0.0.1:5000
输入地址127.0.0.1:5000,打开WebUI界面
队列统计是为了方便查看爬虫状态,优化爬虫爬取速度新增的状态统计.每个组件之间的数字就是对应不同队列的排队数量.通常来是0或是个位数.如果达到了几十甚至一百说明下游组件出现了瓶颈或错误,需要分析处理.
新建项目:pyspider与scrapy最大的区别就在这,pyspider新建项目调试项目完全在web下进行,而scrapy是在命令行下开发并运行测试.
组名:项目新建后一般来说是不能修改项目名的,如果需要特殊标记可修改组名.直接在组名上点鼠标左键进行修改.注意:组名改为delet本文来源gaodaimacom搞#代%码@网-e后如果状态为stop状态,24小时后项目会被系统删除.