• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

织梦中文分词 输入的词语返回乱码怎么办

php 搞代码 3年前 (2022-01-23) 22次浏览 已收录 0个评论
文章目录[隐藏]

php中文分词,织梦中文分词

织梦的中文分词 ,词库中明明有烦恼 ,忧愁这样的词语 ,但是测试输入 ,返回乱码 ,不知道是怎么回事 ,还有这样的代码 else if($n>0xA13F && $n < 0xAA40) , 其中 0xA13F ,0xAA40 是怎么来的 。

回复讨论(解决方案)

if($n>0xA13F && $n < 0xAA40) 是全角符号

他用的是 gbk 字符集,如果你不是的,那一定会乱码的

真的非常谢谢 ,但是应用的类 我都用编辑器存为utf-8 的格式了 ,输入的有些词语,就不会显示乱码啊 ,上面乱码的是经过分词后的词语 ,下面这一排是没有分词的原文,都没有显示乱码啊

他首先用 ReviseString 方法对传入串做预处理
其中有

        //如果中文字符        if(isset($str[$i+1])){          $c = $str[$i].$str[$i+1];

就是说他认为一个中文是由两个字节组成的,这是 gbk 的编码规则
而一个非 ascii 的 utf-8 字符可以是 2个、3个、4个…字节组成
汉字的 utf-8 多由 3 个字节组成

你只把文件内容改为 utf-8 的,没有改变处理规则
出现乱码不就是很正常的了吗?

非常感谢 ,是代码处理的问题 ,所以源码害的深究一番了 !

调用前将 utf-8 转成 gbk 的
来&源gao@dai!ma.com搞$代^码%网搞gaodaima代码 调用后在把 贵宾卡 转成 utf-8 的
这样就不需要研究算法了

呵呵 ,多谢多谢楼主

错了 ,错了 ,多谢版主 。


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:织梦中文分词 输入的词语返回乱码怎么办
喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址