• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

phpcms v9自带采集模块功能体验

php 搞代码 3年前 (2022-01-22) 33次浏览 已收录 0个评论

主流CMS系统之一Phpcms v9自带的采集模块功能如何呢?Phpcms v9默认内置有文章、图片、下载3个内容模型,先来看最普通的文章采集,感兴趣的你可不要错过了哈,希望可以帮助到你哈

Phpcms网站管理系统目前最新版本为Phpcms v9,作为国内主流CMS系统之一,目前已有数万网站的应用规模。那么其自带的采集模块功能如何呢,来看看吧。

文章采集

Phpcms v9默认内置有文章、图片、下载3个内容模型,先来看最普通的文章采集。以采集新浪互联网频道,国内滚动新闻栏目为例http://roll.tech.sina.com.cn/internet_chinalist/index_1.shtml

1、进入后台,内容——内容发布管理——采集管理——添加采集点。(不同于Phpcms以往版本,采集管理在模块菜单内)

2、网址规则。采集项目名随便填,采集页面编码默认GBK,具体采集页面的时候可以通过查看其网页源代码。

网址采集,没有大的特色,通过查看所要采集页面的网址规则填写。分析目标页面得出是序列网址,且所要获取内容的网址都在<!– 列表 begin –>和<!– 列表 end –>两个标签之间。无其他干扰链接,所以就无需定义网址中必须包含和不得包含的字符了。如果目标网站配置了Base,那么也要配置好。

网址采集配置结束,但是如果目标网站列表页用js实现上下页,或者所要获取网址深度超过2级,用此自带采集就很难实现了。

3、内容规则。phpcms是用“[内容]”作为通配符,然后设置好开始结束的字符,再过滤不要的代码来实现内容的采集。分析目标页的tit*本文来源gaodai#ma#com搞@代~码^网+搞代gaodaima码le标签比较有规律,可以直接如图设置。

过滤格式为“要过滤的内容[|]替换值”,如果是删除的话就替换值留空。过滤规则是支持正则表达式,系统自带了几种比较常见的标签过滤正则,要比较灵活过滤的话对于新手来说有点难度,所以新手需要先熟悉下正则表达式。

作者规则,来源规则,时间规则依照规则去获取。小编尝试了一下固定值发现无法实现,就是把某一标签设为固定值,如把“来源”设定为http://www.sina.com.cn,可是采集结果来源标签为空。

内容规则,填好开始和结束标签,我们测试的目标页比较干净,所以只需过滤掉里面的超链接和一些无用标签即可。

内容页

总结:细细体验下来,phpcms v9自带的采集功能还是比较全面的,满足基本的文章和图片采集。但是不够灵活,对一些高要求的站长来说还明显不足,而且门槛较高,官方对采集模块的说明和帮助文件又非常有限,不利于新手上手。

以上就是phpcms v9自带采集模块功能体验的详细内容,更多请关注搞代码gaodaima其它相关文章!


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:phpcms v9自带采集模块功能体验

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址