Python爬虫入门教程01之爬取豆瓣Top电影

文章目录[隐藏]

前言
爬虫基本思路
一、明确需求
三、获取数据

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理

基本开发环境

Python 3.6
Pycharm

爬虫基本思路

一、明确需求

爬取豆瓣Top250排行电影信息

电影名字
导演、主演
年份、国家、类型
评分、评价人数
电影简介

200是状态码，表示请求成功

2xx （成功）
3xx （重定向）
4xx（请求错误）
5xx（服务器错误）

常见状态码

200 – 服务器成功返回网页，客户端请求已成功。
302 – 对象临时移动。服务器目前从不同位置的网页响应请求，但请求者应继续使用原有位置来进行以后的请求。
304 – 属于重定向。自上次请求后，请求的网页未修改过。服务器返回此响应时，不会返回网页内容。
401 – 未授权。请求要求身份验证。对于需要登录的网页，服务器可能返回此响应。
404 – 未找到。服务器找不到请求的网页。
503 （服务不可用）服务器目本文来源gaodai#ma#com搞@@代~&码网^前无法使用（由于超载或停机维护）。

通常，这只是暂时状态。

三、获取数据

import requests
url = 'https://movie.douban.com/top250'
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
print(response.text)

requests.get(url=url, headers=headers) 请求网页返回的是response对象

response.text： 获取网页文本数据

response.json： 获取网页json数据

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：Python爬虫入门教程01之爬取豆瓣Top电影

前言

爬虫基本思路

一、明确需求

三、获取数据

Hi，您需要填写昵称和邮箱！