• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

http://fitness.39.net/food用file_get_contents为什么不能抓取?

php 搞代码 3年前 (2022-01-25) 23次浏览 已收录 0个评论
文章目录[隐藏]

直接echo file_get_contents(‘http://fitness.39.net/food/’);
显示:

<code>Warning: file_get_contents(http://fitness.39.net/food/) [function.file-get-contents]: failed to open stream: HTTP request failed!</code>

怀疑是服务器验证了的浏览器UA,于是在php.ini中设置:

<code>allow_url_fopen =onuser_agent=”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)”</code>

重启apache,然后还是成功的失败了,依旧:

<code>Warning: file_get_contents(http://fitness.39.net/food/) [function.file-get-contents]: failed to open stream: HTTP request failed!</code>

求高手解答

回复内容:

直接echo file_get_contents(‘http://fitness.39.net/food/&#8217;);
显示:

<code>Warning: file_get_contents(http://fitness.39.net/food/) [function.file-get-contents]: failed to open stream: HTTP request failed!</code>

怀疑是服务器验证了的浏览器UA,于是在php.ini中设置:

<code>allow_url_fopen =onuser_agent=”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)”</code>

重启apache,然后还是成功的失败了,依旧:

<code>Warning: file_get_contents(http:/<strong>+本文来源gao@daima#com搞(%代@#码网</strong><pre>搞代gaodaima码

/fitness.39.net/food/) [function.file-get-contents]: failed to open stream: HTTP request failed!

求高手解答

<body>

问题找到了。事先说明,我是用 Node.js 来测试的。

初试

首先我用了下面的代码:

<code class="lang-javascript">var spidex = require("spidex");spidex.get("http://fitness.39.net/food/", function(html, status, respHeader) {    console.log(html);}, "utf8").on("error", function(err) {    console.log(err.message);});</code>

传回来的是访问失败,连接错误。

假设

然后我用 Chrome 来查看我们正常访问时的一些 header 逐个去试。

<code class="lang-javascript">var spidex = require("spidex");var headers = {    "connection"    : "keep-alive"};spidex.get("http://fitness.39.net/food/", function(html, status, respHeader) {    console.log(html);}, headers, "utf8").on("error", function(err) {    console.log(err.message);});</code>

还是连接错误——直到我添加上了 accept 时:

<code class="lang-javascript">var spidex = require("spidex");var headers = {    "connection"    : "keep-alive",    "accept"        : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"};spidex.get("http://fitness.39.net/food/", function(html, status, respHeader) {    console.log(html);}, headers, "utf8").on("error", function(err) {    console.log(err.message);});</code>

结果出来了。

结论

目测是服务端做了对 accept 什么的的验证吧,总之在请求头上面添加一个 accept 字段,并且值设置为 text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 即可。


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:http://fitness.39.net/food用file_get_contents为什么不能抓取?

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址