微博评论文本乱码:为什么爬取的微博评论全是杂乱字符,如何解决?
获取微博评论文本不正常:杂乱字符和方向问题
在使用 requests 库爬取微博堕胎评论时,遇到了奇怪的字符串问题。提取到的字符串含有特殊字符“u200e”、“u202e”、“u202c”,在屏幕打印、pandas 数据框显示时正常,但下标访问或遍历时仍出现这些字符,且顺序混乱。
尽管微博网页和响应编码都为 utf-8,但为何会出现这种问题?
原因在于:
解决方案:
使用正则表达式删除方向格式控制符,然后反转中间字符即可。
import rereversedRE = re.compile(r'u202E(.*?)(?:u202C|$)', re.DOTALL)s = 'u202Ecbau202Cdefu202Eihgu202C'print(s)s = reversedRE.sub(lambda m: m[1][::-1], s)print(s) # abcdefghi
文章推荐
-
了解Python编程行业中最适合自己的就业选择
了解Python编程行业中最适合自己的就业选择随着人工智能和数据科学的蓬勃发展,Python编程语言在行业中的需求也急剧...
Python
36秒前 0 -
Python中的map函数有什么用途?
在本文中,我们将学习Python中map函数的使用。什么是map()函数?Python的map()函数将一个函数应用于作...
Python
1分钟前 0 -
企业招聘Python开发者的常见要求
企业招聘Python开发者的常见要求随着信息技术的快速发展,Python作为一种高级编程语言,正变得越来越受企业欢迎。作...
Python
2分钟前 0 -
如何使用Python生成两个日期之间的k个随机日期?
生成随机数据在数据科学领域非常重要。从构建神经网络预测、股市数据等来看,通常都会将日期作为参数之一。我们可能需要在两个日...
Python
3分钟前 0 -
如何在Python中执行F检验
统计学家使用 f 检验来检查两个数据集是否具有相同的方差。 f 检验以罗纳德·费舍尔爵士的名字命名。为了使用 f 检验,...
Python
3分钟前 0
最新文章
- 了解Python编程行业中最适合自己的就业选择 36秒前
- Python中的map函数有什么用途? 1分钟前
- 企业招聘Python开发者的常见要求 2分钟前
- 如何使用Python生成两个日期之间的k个随机日期? 3分钟前
- 如何在Python中执行F检验 3分钟前
- Python技术求职市场的现状分析与预测 4分钟前
- Python程序将字符串列表转换为逗号分隔的字符串 5分钟前
- Python程序提取网格匹配字符串 6分钟前
- 学Python能否确保你在IT行业内立足? 8分钟前
- Python中llist模块的dllist类 8分钟前