python爬虫的一个常见简单js反爬详解

这篇文章主要介绍了python爬虫的一个常见简单js反爬详解我们在写爬虫是遇到最多的应该就是js反爬了，今天分享一个比较常见的js反爬，我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分,需要的朋友可以参考下

前言

我们在写爬虫是遇到最多的应该就是js反爬了，今天分享一个比较常见的js反爬，这个我已经在多个网站上见到过了。

我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分，今天说的是第二种情况。

目标网站

列表页url: http://www.hnrexian.com/archives/category/jk。

正常网站我们请求url会返回给我们网页数据内容等，看看这个网站返回给我们的是什么呢？

我们把相应中返回的js代码格式化一下，方便查看。

说好的返回网页数据源码呢，这是什么东西!

js破解思路

js破解提供两种思路，一种是直接用Python来重写js内容，实现模拟js的操作，这种一般用于比较简单的js；还有一种是用Python第三方库来解析js，比如pyv8,execjs这些（个人觉得execjs比较好用），这种一般用于比较复杂的js解析。

分析返回的js分成两个部分。第一部分，定义了stringToHex和YunSuoAutoJump两个函数。第二部分，50毫秒后执行YunSuoAutoJump这个函数。

YunSuoAutoJump这个函数功能是添加一个cookie并去请求一个构造的url，可以从docume来源gao@daima#com搞(%代@#码网nt.cookie 和 self.location这里看出。stringToHex这个函数的共能其实就是字符串的转换，具体js内容可以参考这个网址https://www.runoob.com/js/js-tutorial.html自行查找。

python重写代码

那么接下来就是用python来重写js啦，重写后代码如下。

 def stringToHex(string): length = len(string) hex_string = str() for i in xrange(length): hex_string += hex(ord(string[i]))[2:] return hex_string def get_cookie(url): hex_string = stringToHex(url) cookie = {"srcurl": hex_string, "path": "/"} return cookie

这是那两个函数，一个用于字符串转换，一个用于获取cookie。

最后拿到结果

接下来模拟浏览器操作，其中是分为三部分。第一次，我们请求目标url，然后返回给我们js内容；第二次，js添加1个cookie并请求了1个构造出的url；第三次请求原目标url，得到最终的数据。

这里我们用requests.Session来保持连接，模拟上面三部的内容。

 url = "http://www.hnrexian.com/archives/category/jk" s = requests.Session() r = s.get(url) url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0] screen_date = "1920,1080" url_2 = url_2 + stringToHex(screen_date) url_2 = urljoin(url, url_2) cookie = get_cookie(url) s.cookies.update(cookie) r2 = s.get(url_2) url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0] r3 = s.get(url3) r3.encoding = "gbk" print r3.text

到这里我们就完美得到最后想要的内容了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持gaodaima搞代码网。

以上就是python爬虫的一个常见简单js反爬详解的详细内容，更多请关注gaodaima搞代码网其它相关文章！

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：python爬虫的一个常见简单js反爬详解

Hi，您需要填写昵称和邮箱！