python 采集中文乱码问题的方法
近几日遇到采集某网页的时候大部分网页ok,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录
1. 在正常情况下..可以用
import chardetthischarset = chardet.detect(strs)["encoding"]
来获取该文件或页面的编码方式
立即学习“Python免费学习笔记(深入)”;
或直接抓取页面的charset = xxxx 来获取
2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.
strs = strs.decode("UTF-8","ignore").encode("UTF-8")
decode的第二个参数表示遇到非法字符时所采取的方式
该参数默认为抛出异常.
文章推荐
-
使用Python绘制图表大全总结
本篇文章主要介绍了使用python绘制图表大全总结,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来...
Python
2分钟前 0 -
Python实现多线程HTTP下载器示例
本文将介绍使用python编写多线程http下载器,并生成.exe可执行文件。环境:windows/Linux + Py...
Python
3分钟前 0 -
Ubuntu下创建虚拟独立的Python环境全过程
前言虚拟环境是程序执行时的独立执行环境,在同一台服务器中可以创建不同的虚拟环境供不同的系统使用,项目之间的运行环境保持独...
Python
7分钟前 1 -
详解python3百度指数抓取实例
本篇文章主要介绍了python3百度指数抓取,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧...
Python
21分钟前 1 -
Python 2与Python 3版本和编码的对比
一、版本对比首先要说的是,Python的版本,目前主要分为两大类:Python 2.x的版本的,被称为Python2:是...
Python
55分钟前 2
最新文章
- 使用Python绘制图表大全总结 2分钟前
- Python实现多线程HTTP下载器示例 3分钟前
- Ubuntu下创建虚拟独立的Python环境全过程 7分钟前
- 详解python3百度指数抓取实例 21分钟前
- Python 2与Python 3版本和编码的对比 55分钟前
- Python之日期与时间处理模块(date和datetime) 1小时前
- 详解使用pymysql在python中对mysql的增删改查操作(综合) 1小时前
- Python实现字符串格式化的方法小结 1小时前
- python自带的http模块详解 2小时前
- python安装PIL模块时Unable to find vcvarsall.bat错误的解决方法 2小时前