• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

Python爬虫入门教程01之爬取豆瓣Top电影

python 搞代码 4年前 (2022-01-09) 25次浏览 已收录 0个评论
文章目录[隐藏]

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理

基本开发环境

  •  Python 3.6
  • Pycharm

相关模块的使用

  •  requests
  • parsel
  • csv

安装Python并添加到环境变量,pip安装需要的相关模块即可。

爬虫基本思路

一、明确需求

爬取豆瓣Top250排行电影信息

  • 电影名字
  • 导演、主演
  • 年份、国家、类型
  • 评分、评价人数
  • 电影简介

200是状态码,表示请求成功

2xx (成功)
3xx (重定向)
4xx(请求错误)
5xx(服务器错误)

常见状态码

  • 200 – 服务器成功返回网页,客户端请求已成功。
  • 302 – 对象临时移动。服务器目前从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。
  • 304 – 属于重定向。自上次请求后,请求的网页未修改过。服务器返回此响应时,不会返回网页内容。
  • 401 – 未授权。请求要求身份验证。 对于需要登录的网页,服务器可能返回此响应。
  • 404 – 未找到。服务器找不到请求的网页。
  • 503 (服务不可用) 服务器目本文来源gaodai#ma#com搞@@代~&码网^前无法使用(由于超载或停机维护)。

通常,这只是暂时状态。

 三、获取数据

import requests
url = 'https://movie.douban.com/top250'
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
print(response.text)

requests.get(url=url, headers=headers) 请求网页返回的是response对象

response.text: 获取网页文本数据

response.json: 获取网页json数据


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Python爬虫入门教程01之爬取豆瓣Top电影

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址