Python urllib2运行过程原理解析

这篇文章主要介绍了Python urllib2运行过程原理解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

1.urlopen函数

urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])

注：

url表示目标网页地址，可以是字符串，也可以是请求对象Request

req= urllib2.Request(url, data,headers) response = urllib2.urlopen(req,timeout=3)

data表示post方式提交给目标服务器的参数

data = urllib.urlencode(data)

 import urllib,urllib2 action_url="http://www.xxxxxx.com/post"#用于测试post的网址，返回提交的数据 values={'name':"alice",'age':20} data=urllib.urlencode(values)#对表单数据编码 rqst=urllib2.Request(action_url,data) response=urllib2.urlopen(rqst)#模拟提交表单数据到url并获得响应

timeout表示超时时间设置。

返回值

response.read()返回页面内容
response.info()返回网页信息
response.geturl()返回连接地址

这个函数可以像urllib.urlopen()那样以url做参数。也能以Request实例为参数，即用一个Request对象（下文构造方法）来映射你提出的HTTP请求,在它最简单的使用形式中你将用你要请求的地址创建一个Request对象，这个Request对象中可以设置传输数据、headers等。通过调用urlopen并传入Request对象，将返回一个file-like对象。urllib2还提供了接口来处理一般情况，例如：基础验证，cookies,代理和其他，它们通过handlers和openers的对象实现。

2、Request函数

urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])

用于构造Request对象，可以传递data数据，添加请求头（headers）等，构造好后作为urllib2.urlopen()的参数。

注：

url表示目标网页地址，可以是字符串，也可以是请求对象Request

data表示post方式提交给目标服务器的参数

headers表示用户标识，是一个字典类型的数据，有些不允许脚本的抓取，所以需要用户代理，像火狐浏览器的代理就是类似：

Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11

浏览器的标准UA格式为：浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识版本信息，headers默认是

Python-urllib/2.6

origin_req_host表示请求方的主机域名或者ip地址。

headers = {‘User-Agent’:’Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11′}

 import urllib import urllib2 url = 'http://www.weibo.cn/' user_a<mark style="color:transparent">来源gaodaimacom搞#代%码网</mark>gent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' h = { 'User-Agent' : user_agent } req = urllib2.Request(url,headers=h) response = urllib2.urlopen(req) print response.read()

3、build_opener()

build_opener([handler1 [ handler2, … ]])

urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能，必须使用build_opener()函数创建自定义Opener对象。

参数handler是Handler实例，常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。
build_opener ()返回的对象具有open()方法，与urlopen()函数的功能相同。

如果要修改http报头，可以用：

 import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] opener.open('http://www.example.com/')

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持gaodaima搞代码网。

以上就是Python urllib2运行过程原理解析的详细内容，更多请关注gaodaima搞代码网其它相关文章！

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：Python urllib2运行过程原理解析

Hi，您需要填写昵称和邮箱！