python百度反收集如何使用

1、从用户请求的Headers反爬虫是最常见的反爬虫策略。

伪装headers。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名[评论：往往容易被忽略，通过对请求的抓包分析，确定referer，在程序中模拟访问请求头中添加]。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。

相关推荐：《Python基础教程》

2、基于用户行为反爬虫

还有一部分网站是通过检测用户行为，例如：同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。这种防爬，需要有足够多的ip来应对。

大多数网站都是前一种情况，对于这种情况，使用IP代理就可以解决。可以专门写一个爬虫，爬取网上公开的代理ip，检测后全部保存起来。有了大量代理ip后可以每请求几次更换一个ip，这在requests或者urllib中很容易做到，这样就能很容易的绕过第一种反爬虫。

编写爬虫代理：

步骤：

1.参数是一个字典{'类型'：'代理ip：端口号'}

proxy_support=urllib.request.ProxyHandler({})

www#gaodaima.com来源gao($daima.com搞@代@#码(网搞代码

2.定制、创建一个opener

opener=urllib.request.build_opener(proxy_support)

3.安装opener

urllib.request.install_opener(opener)

4.调用opener

opener.open(url)

来源：搞代码网：原文地址：https://www.gaodaima.com

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：python百度反收集如何使用

Hi，您需要填写昵称和邮箱！