• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

javascript – php 抓取的页面如何处理可以只保留DOM结构,去掉CSS和JS?

php 搞代码 3年前 (2022-01-25) 13次浏览 已收录 0个评论
文章目录[隐藏]

正则规则写好后,页面一旦有改变就要重新修改正则。
先提取页面的 DOM,有没有比较好的办法?

本@文来源[email protected]搞@^&代*@码网(搞代gaodaima码

回复内容:

正则规则写好后,页面一旦有改变就要重新修改正则。
先提取页面的 DOM,有没有比较好的办法?

我想你需要的是 php 的 DOM 模块 … 默认有安装不用担心 …

因为不知道你的实际应用场景是什么 … 给你写个简单的例子吧 …

<?php/* i heard that you need DOM ..? */$doc = new DOMDocument();/* i wrote a simple page ... change it to a curl result ... */$doc->loadHTML( <<<HTML_SECTION<title>Sunyanzi's Test</title><body>  <h1>Hello World</h1>  Hey WelcomeHTML_SECTION);/* now we should try to get something ... */$h1Elements = $doc->getElementsByTagName( 'h1' );/* this line prints "Hello World" ... */foreach( $h1Elements as $h1Node )     echo $h1Node->nodeValue, PHP_EOL;/* and this line prints "http://segmentfault.com/" ... */echo $doc->getElementById( 'onlylink' )->getAttribute( 'href' ), PHP_EOL;/* now i will introduce something advanced ... using XPath ... */$xpath = new DOMXPath( $doc );/* also prints "http://segmentfault.com/" ... locate via h1 ... */echo $xpath->evaluate(    'string(//h1[text()="Hello World"]/following-sibling::a/@href)'    ), PHP_EOL;

基本上 … 等到你熟练掌握 XPath 之后 … 你会发现 DOM 比正则要灵活得多 …

php 处理 XML 的能力远远超乎你的想象 … 有空读读手册不是坏事恩 …

你说的很对。我现在就用xpath。。。


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:javascript – php 抓取的页面如何处理可以只保留DOM结构,去掉CSS和JS?

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址