一、解决cookie,实战登录17K小说网
局部网站须要登录能力获取所需数据,如此例咱们要获取小说网站书架数据,须要进行登录失去属于此账号信息。
1.会话(Session)跟踪是Web程序中罕用的技术,用来跟踪用户的整个会话。罕用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。
2.应用浏览器开发工具,找到登录所需网址。
3.应用session获取所要内容。
4.获取cookie。
5.获取页面数据,应用session放弃登录状态。
6.第二种获取形式。
咱们能够看到间接应用requests无奈进入登录状态的,然而咱们也可通过cookie解决这个问题。在浏览器开发工具中获取cookie。
二、requests解决防盗链,获取梨视频视频。
抉择梨视频中任意视频,应用浏览器开发工具能够看到其视频链接,然而咱们无奈在页面源代码中找到视频下载链接
刷新页面,能够在开发者工具中失去Request URL申请网址及srcUrl的网址。
输出浏览器中,会呈现报错,咱们将正确的视频网址与此网址进行比照,可看到其前后均雷同,只有两头局部不同。
找到不同地位的起源,将两个界面进行比照。
上面进行视频的爬取。
1.拿到contID
2.获取videoStatus返回json
呈现文章曾经下线的晋升,可内容是呈现在浏览器中的,咱们将解决防盗链的问题,防盗链次要为溯源,找到本次申请的上一级链接。
筛选内容,获取json。
3.对获取网址进行内容批改替换。
4.下载视频。
三、综合训练,爬取网易云音乐评论信息
1.应用开发者工具找到所需内容地位。
2.发现其数据为加密模式,依照其申请运行过程找到加密的地位。
3.找到未加密的参数
4.参考网易的逻辑找到其加密的逻辑,可发现须要params,encSecKey两个参数。
5.对应上述逻辑,找到d,e,f,g别离对应内容。
6.上面进行评论的爬取。
7.运行取得后果,失去网易云音乐歌曲评论信息。