• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

python小技巧之批量抓取美女图片

python 搞代码 4年前 (2022-01-09) 21次浏览 已收录 0个评论

其中用到urllib2模块和正则表达式模块。下面直接上代码:

[/code]
#!/usr/bin/env python
#-*- coding: utf-8 -*-
#通过urllib(2)模块下载网络内容
import urllib,urllib2,gevent
#引入正则表达式模块,时间模块
import re,time
from gevent import monkey

monkey.patch_all()

def geturllist(url):
url_list=[]
print url
s = urllib2.urlopen(url)
text = s.read()
#正则匹配,匹配其中的图片
html = re.search(r'<ol.*

‘, text, re.S)
urls = re.finditer(r”,html.group(),re.I)
for i in urls:
url=i.group(1).strip()+str(“jpg”)
url_list.append(url)
return url_list

def download(down_url):
name=str(time.time())[:-3]+”_”+re.sub(‘.+?/’,”,down_url)
print name
urllib.urlretrieve(down_url, “D:\\TEMP\\”+name)

def getpageurl():
page_list = []
#进行列表页循环
for page in range(1,700):
url=”http://jandan.net/ooxx/page-“+str(page)+”#comments&#8221;
#把生成的url加入到page_list中
page_list.append(url)
print page_list
return page_list
if __name__ == ‘__main__’:
本文来源gaodai#ma#com搞*!代#%^码网% jobs = []
pageurl = getpageurl()[::-1]
#进行图片下载
for i in pageurl:
for (downurl) in geturllist(i):
jobs.append(gevent.spawn(download, downurl))
gevent.joinall(jobs)
[/code]

程序不长才45行,不是太难,大家可以研究下,这里我只是抛砖引玉,大家可以根据原理开发出其他的抓取程序,呵呵,自己想去吧。。。我就不多说了~~


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:python小技巧之批量抓取美女图片
喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址