如何用python爬取图片

都知道Python的语法很简单易上手，也很适合拿来做爬虫等等，这里就简单讲解一下爬虫入门——简单地爬取下载网站图片。

代码：

其实很简单，我们直接看下整体的代码：

#coding = utf-8
<a href="https://www.gaodaima.com/tag/import" title="查看更多关于import的文章" target="_blank">import</a> <a href="https://www.gaodaima.com/tag/urllib" title="查看更多关于urllib的文章" target="_blank">urllib</a>
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = 'src="(.+?.jpg)" alt='
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x+=1
    return imglist

html = getHtml("http://pic.yxdown.com/list/0_0_1.html")

print getImg(html)

www#gaodaima.com来源gao($daima.com搞@代@#码网搞代码

效果

就像这样自动爬取下载图片到本地：

导入库：

第一行的utf-8是为了支持中文。

这里我们导入了两个库，分别是 urllib 和 re。urllib 是用来进行 url 网络请求的，而 re 是一个正则表达式匹配的库。这里我们要先对网站进行模拟请求，然后找到网站中的图片进行下载。

请求网站：

第一个方法：getHtml。

这就是用来模拟浏览器访问网站的，参数 url 是要访问的网站链接，这里我们在下面的变量 html 处调用了这个方法，其访问的 url 是一个图片网站，关于选择访问网站还有一点等下要说一下。

在这个方法中，我们先用了 urllib 库的 urlopen 方法来打开网站，然后通过 read 方法来获取网站的源代码，其实就跟在网页中“右键–>检查“是一个意思。最后返回了读取到的网站源代码。

上面说了要注意的一点是，由于很多网站会禁止人们随意爬取数据，有反爬虫的技术，所以在选择要爬取的网站的时候，最好先通过这个方法获取网站源代码，然后 print 输出 html 变量看一下获取到的内容是否是正常的网页源代码，而不是403之类的禁止访问，如果被禁止了，那么自然也不可能爬取到数据了。更多学习内容，请点击Python学习网。

来源：搞代码网：原文地址：https://www.gaodaima.com

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：如何用python爬取图片

Hi，您需要填写昵称和邮箱！