欢迎访问搞代码网站，推荐使用最新版火狐浏览器和Chrome浏览器访问本网站！
如果您觉得本站非常有看点，那么赶紧使用Ctrl+D 收藏搞代码吧

> 后端 > python > python 采集中文乱码问题的方法

python 采集中文乱码问题的方法

python 搞代码 4年前 (2022-01-09) 19次浏览已收录 0个评论

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardetthischarset = chardet.det<p>本文来源gao!daima.com搞$代!码#网#</p>ect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了，希望对大家有所帮助，多多支持搞代码

更多python 采集中文乱码问题的方法相关文章请关注搞代码！

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：python 采集中文乱码问题的方法

版权声明
本站的文章和资源来自互联网或者站长
的原创，按照 CC BY -NC -SA 3.0 CN
协议发布和共享，转载或引用本站文章
应遵循相同协议。如果有侵犯版权的资
源请尽快联系站长，我们会在24h内删
除有争议的资源。
网站驱动
- 部署在阿里云
- 由七牛云储存提供 CDN 加速
友情链接
- 搞代码
- 宝塔镇河妖
强烈推荐
- 腾讯云
- 二三四五