• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

python 爬虫

python 搞java代码 3年前 (2022-05-21) 10次浏览 已收录 0个评论

一、requests 模块爬虫基础写法

<code class="language-python"># 基础<a href="https://www.gaodaima.com/tag/%e7%88%ac%e8%99%ab" title="查看更多关于爬虫的文章" target="_blank">爬虫</a>写法.py
import <a href="https://www.gaodaima.com/tag/requests" title="查看更多关于requests的文章" target="_blank">requests</a>

def spider(url):
# 定义一个函数,爬取网页源码

	headers = {"<a href="https://www.gaodaima.com/tag/user" title="查看更多关于user的文章" target="_blank">user</a>-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"}
	# 定义个一个headers 里面放user-agnet,也可以放别的信息, 字典格式key-values
	# user-agent 会告诉网站服务器,访问者是通过什么工具来请求的。 类似伪造身份,让对端把自己当成浏览器

	ret = requests.get(url , headers=headers)
	# 请求一个地址,返回响应
	
	html = ret.content
	# 得到网页源码
	
	# html = ret.content.decode("utf-8")
	# 得到网页原码编码格式为utf-8
	
	return html
	# 返回网页源码



if __name__ == "__main__":

	url = "https://www.cnblogs.com/aaak/p/13968431.html"
	# url 地址

	html = spider(url).decode("utf-8")
	# 调用 函数,并指定编码格式

	print(html)
</code>
www#gaodaima.com来源gaodai^.ma#com搞#代!码网搞代码

搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:python 爬虫
喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址