一、requests 模块爬虫基础写法
<code class="language-python"># 基础<a href="https://www.gaodaima.com/tag/%e7%88%ac%e8%99%ab" title="查看更多关于爬虫的文章" target="_blank">爬虫</a>写法.py import <a href="https://www.gaodaima.com/tag/requests" title="查看更多关于requests的文章" target="_blank">requests</a> def spider(url): # 定义一个函数,爬取网页源码 headers = {"<a href="https://www.gaodaima.com/tag/user" title="查看更多关于user的文章" target="_blank">user</a>-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"} # 定义个一个headers 里面放user-agnet,也可以放别的信息, 字典格式key-values # user-agent 会告诉网站服务器,访问者是通过什么工具来请求的。 类似伪造身份,让对端把自己当成浏览器 ret = requests.get(url , headers=headers) # 请求一个地址,返回响应 html = ret.content # 得到网页源码 # html = ret.content.decode("utf-8") # 得到网页原码编码格式为utf-8 return html # 返回网页源码 if __name__ == "__main__": url = "https://www.cnblogs.com/aaak/p/13968431.html" # url 地址 html = spider(url).decode("utf-8") # 调用 函数,并指定编码格式 print(html) </code>
www#gaodaima.com来源gaodai^.ma#com搞#代!码网搞代码