webmagic是一个开源的Java垂直爬虫框架,覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。
开源的Web爬虫webmagic原理截图
开源的Web爬虫webmagic特性包括:
1)完全模块化的设计,强大的可扩展性。
2)提供丰富的抽取页面API。
3)无配置,但是可通过POJO+注解形式实现一个爬虫。
4)支持多线程。
5)支持分布式。
6)支持爬取js动态渲染的页面。
7)无框架依赖,可以灵活的嵌入到项目中去。
开源的Web爬虫webmagic下载地址:
开源的Web爬虫webmagic免费下载
code4craft / webmagic
A scalable web crawler framework for Java.