• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

PHP:preg_replace_callback匹配中文的问题

php 搞代码 4年前 (2022-01-25) 10次浏览 已收录 0个评论
文章目录[隐藏]

代码:

<code>$html = preg_replace_callback("/(?[\x{4e00}-\x{9fa5}]+)/u",array("self","wyc_chinese"),$html);...省略...public function wyc_chinese($matches){           return $matches['chinese'].'(Chinese)';}</code>

问题:
$html为要提取的网页数据
如果$html是utf8编码的,则以上代码能正常执行(即能正常提取中文),但如果是其他编码的,则没法正常执行(无法匹配到汉字)
使用iconv转换$html的编码格式,也无法正常提取中文。

回复内容:

代码:

<code>$html = preg_replace_callback("/(?[\x{4e00}-\x{9fa5}]+)/u",array("self","wyc_chinese"),$html);...省略...public function wyc_chinese($matches){           return $matches['chinese'].'(Chinese)';}</code>

问题:
$html为要提取的网页数据
如果$html是utf8编码的,则以上代码能正常执行(即能正常提取中文),但如果是其他编码的,则没法正常执行(无法匹配到汉字)
使用iconv转换$html的编码格式,也无法正常提取中文。

<meta charset="utf-8">来识别编码是错误的.有些网页没有写meta,对于现代浏览器也会正常显示的(IE6有问题,IE7,IE8没测~)
应该根据HTTP响应头Content-Type: text/html; charset=UTF-8来判断.如果没有返回charset,就根据内容来自行判断了..
为了方便,最好将html转换为UTF-8来进行正则匹配.

<code class="lang-php"><?php//编辑器的编码格式为UTF-8(无BOM)$remote_url = 'http://segmentfault.com/q/1010000000450422';$context = stream_context_create([    'http' => [        'method' => 'GET',    ],]);$html = file_get_contents($remote_url, false, $context);$html_encoding = mb_detect_encoding($html, ['UTF-8', 'CP936', 'ASCII']);//转换为UTF-8$target_encoding = 'UTF-8';$html = $target_encoding === $html_encoding ? $html : mb_convert_encoding($html, $target_encoding, $html_encoding);//匹配$count = preg_match_all('#[\x{4e00}-\x{9fa5}]+#u', $html, $matc<p style="color:transparent">本文来源gao!%daima.com搞$代*!码$网3</p><strong>搞代gaodaima码</strong>hes);var_dump($matches);</code>

你这问题的核心是网页编码转换成UTF-8

你说源编码是”根据meta标签的charset字段来判断的”

我也是这样子做的, 不过我成功.

你没给出详尽代码,我不知道是你的代码哪里出错了,还是纯粹是我的人品比你好.

<code>require_once(__DIR__.'/wp-config.php');$resp = wp_remote_get('http://51nb.com/');$html = $resp['body'];preg_match('@charset=([-a-z0-9_]+)@i',$html,$charset);$html = iconv(strtoupper($charset[1]), "UTF-8", $html);preg_match_all("@\p{Han}+@u",$html,$m);     echo '<meta charset="UTF-8" />';print_r($m);exit;</code>

使用以上代码的iconv

不使用以上代码的iconv


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:PHP:preg_replace_callback匹配中文的问题

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址