前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理
基本开发环境
- Python 3.6
- Pycharm
相关模块的使用
- requests
- parsel
- csv
安装Python并添加到环境变量,pip安装需要的相关模块即可。
爬虫基本思路
一、明确需求
爬取豆瓣Top250排行电影信息
- 电影名字
- 导演、主演
- 年份、国家、类型
- 评分、评价人数
- 电影简介
200是状态码,表示请求成功
2xx (成功)
3xx (重定向)
4xx(请求错误)
5xx(服务器错误)
常见状态码
- 200 – 服务器成功返回网页,客户端请求已成功。
- 302 – 对象临时移动。服务器目前从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。
- 304 – 属于重定向。自上次请求后,请求的网页未修改过。服务器返回此响应时,不会返回网页内容。
- 401 – 未授权。请求要求身份验证。 对于需要登录的网页,服务器可能返回此响应。
- 404 – 未找到。服务器找不到请求的网页。
- 503 (服务不可用) 服务器目本文来源gaodai#ma#com搞@@代~&码网^前无法使用(由于超载或停机维护)。
通常,这只是暂时状态。
三、获取数据
import requests url = 'https://movie.douban.com/top250' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } response = requests.get(url=url, headers=headers) print(response.text)
requests.get(url=url, headers=headers)
请求网页返回的是response对象
response.text:
获取网页文本数据
response.json:
获取网页json数据