浅析python 通⽤爬⾍和聚焦爬⾍

一、爬虫的简单理解

1. 什么是爬虫？

网络爬虫也叫网络蜘蛛，如果把互联网比喻成一个蜘蛛网，那么蜘蛛就是在网上爬来爬去的蜘蛛，爬虫程序通过请求url地址，根据响应的内容进行解析采集数据，比如：如果响应内容是html，分析dom结构，进行dom解析、或者正则匹配，如果响应内容是xml/json数据，就可以转数据对象，然后对数据进行解析。

2. 爬虫有什么作用？

通过有效的爬虫手段批量采集数据，可以降低人工成本，提高有效数据量，给予运营/销售的数据支撑，加快产品发展。

3. 爬虫业界的情况

目前互联网产品竞争激烈，业界大部分都会使用爬虫技术对竞品产品的数据进行挖掘、采集、大数据分析，这是必备手段，并且很多公司都设立了爬虫工程师的岗位。

4. 合法性

爬虫是利用程序进行批量爬取网页上的公开信息，也就是前端显示的数据信息。因为信息是完全公开的，所以是合法的。其实就像浏览器一样，浏览器解析响应内容并渲染为页面，而爬虫解析响应内容采集想要的数据进行存储。

5. 反爬虫

爬虫很难完全的制止，道高一尺魔高一丈，这是一场没有硝烟的战争，码农VS码农

反爬虫一些手段：

合法检测：请求校验(useragent，referer，接口加签名，等)
小黑屋：IP/用户限制请求频率，或者直接拦截
投毒：反爬虫高境界可以不用拦截，拦截是一时的，投毒返回虚假数据，可以误导竞品决策

二、通用爬虫

根据使⽤场景，⽹络爬⾍可分为通⽤爬⾍和聚焦爬⾍两种.。

1、通⽤爬⾍

通⽤⽹络爬⾍是?人饕?妫?aidu、Google、Yahoo）抓取系统的重要组成部分。主要⽬的是将互联⽹上的⽹⻚下载到本地，形成⼀个互联⽹内容的镜像备份。

⽹络爬⾍的基本⼯作流程如下：

⾸先本文来源gao@!dai!ma.com搞$$代^@码!网选取⼀部分精⼼挑选的种⼦URL；
将这些 URL 放⼊待抓取 URL 队列；
从待抓取 URL 队列中取出待抓取在 URL，解析 DNS，并且得到主机的 ip，并将 URL 对应的⽹⻚下载下来，存储进已下载⽹⻚库中。此外，将这些 URL 放进已抓取 URL 队列。
分析已抓取 URL 队列中的 URL，分析其中的其他 URL，并且将 URL放⼊待抓取 URL 队列，从⽽进⼊下⼀个循环….

2、通⽤搜索引擎（Search Engine）⼯作原理

随着⽹络的迅速发展，万维⽹成为⼤量信息的载体，如何有效地提取并利⽤这些信息成为⼀个巨⼤的挑战，通常⽤户会通过搜索引擎（Yahoo，Google，百度等），来作为访问万维⽹的⼊⼝。

⽽通⽤⽹络爬⾍是搜索引擎系统中⼗分重要的组成部分，它负责从互联⽹中搜集⽹⻚，采集信息，这些⽹⻚信息⽤于为搜索引擎建⽴索引从⽽提供⽀持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：浅析python 通⽤爬⾍和聚焦爬⾍

Hi，您需要填写昵称和邮箱！