• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

求高手,模拟浏览器抓取网页,该如何处理

php 搞代码 3年前 (2022-01-24) 14次浏览 已收录 0个评论

求高手,模拟浏览器抓取网页
如抓取http://map.sogou.com/api/这个网页,我写的程序,如果不带网址后面的”/”,会抓取得不到,但是站上网(http://tool.chinaz.com/Tools/PageCode.aspx),不带最后面的”/”即可抓取到(即:http://map.sogou.com/api),他是什么原理?下面贴出我的代码,请·本2文来源gaodai$ma#com搞$代*码网2搞gaodaima代码改进

<br /><br />function file_get($url){<br />	 ob_start();<br />	 $ch = curl_init();<br />	 <br />	 curl_setopt($ch, CURLOPT_COOKIEJAR, "./cookie.txt");<br />	 curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; InfoPath.1; CIBA)");<br />	curl_setopt($ch, CURLOPT_URL, $url);<br />	 curl_setopt($ch, CURLOPT_HEADER, FALSE);<br />	 curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE);<br />	 curl_setopt($ch, CURLOPT_NOBODY, FALSE);<br /><br />	 curl_exec($ch);<br />	 curl_close($ch);<br />	 $content = ob_get_clean();<br />	 <br />	 <br /><br />	return $content;<br /><br />}<br />

——解决方案——————–
CURLOPT_FOLLOWLOCATION


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:求高手,模拟浏览器抓取网页,该如何处理
喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址