• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

javascript – 请教一个火车头采集器可用的纯正规则!

php 搞代码 3年前 (2022-01-23) 23次浏览 已收录 0个评论
文章目录[隐藏]

<body>

情况是这样的最近在用火车头采集的目标源网站发觉对方的网站有些文章的标题前面有一些特殊符号!
这些特殊符号在标题中有的显示例如:❤♨等等等~~

有的不会显示如图1 图2!

那些标题上能显示的还没事儿~~如图1图2上不显示的会出现问题就是免登陆发布文章以后没有标题了!!!

那个符号还不是一个两个!使用替换功能替换只能替换掉当前标题的符号,换个标题就替换不掉了,前后也没有任何参照也不能用截取的方法~

这个事儿很困扰我!总不能采集文章每个都看看吧!挺烦人的这个事儿!!所以来求助来了!

我试了很多方法都不行!前天意外接触到纯正则,发觉这个可以去掉!
但是刚接触这个东西还不会写啊!所以来求助来了!

我的思路是用纯正则替换掉第一个双节字符~~或者替换掉第一个汉字前面的双节字符!!

因为不知道火车头支持什么样的纯正则!目标我知道的只有这类[u4e00-u9fa5a-zA-Z]

请会的大神不吝赐教!感激不尽!

回复内容:

本文来源gaodai#ma#com搞*!代#%^码$网!搞代gaodaima码 <body>

情况是这样的最近在用火车头采集的目标源网站发觉对方的网站有些文章的标题前面有一些特殊符号!
这些特殊符号在标题中有的显示例如:❤♨等等等~~

有的不会显示如图1 图2!

那些标题上能显示的还没事儿~~如图1图2上不显示的会出现问题就是免登陆发布文章以后没有标题了!!!

那个符号还不是一个两个!使用替换功能替换只能替换掉当前标题的符号,换个标题就替换不掉了,前后也没有任何参照也不能用截取的方法~

这个事儿很困扰我!总不能采集文章每个都看看吧!挺烦人的这个事儿!!所以来求助来了!

我试了很多方法都不行!前天意外接触到纯正则,发觉这个可以去掉!
但是刚接触这个东西还不会写啊!所以来求助来了!

我的思路是用纯正则替换掉第一个双节字符~~或者替换掉第一个汉字前面的双节字符!!

因为不知道火车头支持什么样的纯正则!目标我知道的只有这类[u4e00-u9fa5a-zA-Z]

请会的大神不吝赐教!感激不尽!


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:javascript – 请教一个火车头采集器可用的纯正规则!

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址