使用 Python os 模块和 Unicode 进行字符编码

百变鹏仔 5个月前 (01-15) #Python

文章标签字符

今天我意识到我没有发表一些关于如何做的笔记：

处理未指定的字符编码。

这是我在让我的程序 foldatry 处理旧文件系统时必须解决的问题。

请注意，这仅涉及文件和文件夹名称，我尚未检查文件内容的情况。

立即学习“Python免费学习笔记（深入）”；

我的决定是：

 pythondef pfn4print( p_pfn ):    return p_pfn.encode('utf-8', 'surrogateescape').decode('cp1252', 'backslashreplace')

请注意，cp1252 是 iso-8859-1 编码标准的 windows-1252 超集。

该代码的基本原理是：

然后为了显示，它使用 windows-1252 编解码器，原因有两个：

替代方案是始终将所有路径和文件名作为字节字符串处理，这似乎工作量太大。

现在，如果您对 unicode 了解很多，您可能会知道并非所有字节序列在其标准编码中都是有效的。

那么当 python os 模块遇到这些（即在字节序列中，它没有被告知如何解码）时，它会做什么？

嗯，这就是“surrogateescape”的用武之地，因为这实际上让 python 将错误的字节序列存储为：

这就是为什么encode('utf-8', 'surrogateescape') 给我们返回原始字节。

现在我承认这看起来有点“神奇”。虽然您当然可以更深入地了解如何：

但我的猜测是，你不需要走那么深，只需相信“surrogateescape”就能完成它的伎俩。

请注意，这都是为了程序不会崩溃处理。最终，正确处理未指定的字符编码就是确定哪种编码对其有效。有一些工具可以很好地做到这一点，但要确定它需要人类的判断 - 本质上是因为它是由人类的不幸事件造成的。

附：下面的函数将字符串转换为其 unicode 序数列表（即代码点序列）。方便检查 python 真正认为的 unicode 字符串。

 pythondef string_as_list_of_code_points( p_str):    return list( ord(a_char) for a_char in list(p_str) )

实施例1

这来自我在 windows 98 时代制作的 cd-rom。因此，文件名肯定不是以 unicode 形式完成的。

我们的示例文件名是：

编码

在 cd-rom 上，编码是这三个字节的序列：

通过 os 模块读入 python3 - 它变成以下 unicode 代码点序列：

如果我们成功转换 - 见下文 - 那么 python 将保存这个 unicode“代码点”序列：

如果 python 将其写入 utf-8，它将变成这四个字节：

我对 windows-nt 内部使用的理解是“ucs-2”，以字节为单位，将是：

参见：

python序列

好吧，让我们看看它在 python 交互式会话中是如何工作的。以下内容是从终端窗口剪下来的。

$ python3python 3.10.12 (main, sep 11 2024, 15:47:36) [gcc 11.4.0] on linuxtype "help", "copyright", "credits" or "license" for more information.>>> s_0 = "für">>> print( list( ord(a_char) for a_char in list(s_0) ) )[102, 252, 114]>>> ba_1 = s_0.encode( "utf-8", "surrogateescape")>>> print( list( ba_1 ) )[102, 195, 188, 114]>>> ba_2 = s_0.encode("cp1252", "backslashreplace")>>> print( list( ba_2 ) )[102, 252, 114]>>> s_1 = ba_2.decode("utf-8", "surrogateescape")>>> print( list( ord(a_char) for a_char in list(s_1) ) )[102, 56572, 114]>>> ba_3 = s_1.encode( "utf-8", "surrogateescape")>>> print( list( ba_2 ) )[102, 252, 114]>>> s_2 = ba_3.decode("cp1252")>>> print( list( ord(a_char) for a_char in list(s_2) ) )[102, 252, 114]>>> print( s_2)für

回顾一下之前的评论：

根据您对代码点和编码的熟悉程度，可能会有两个惊喜：

同样，可能不会引起您注意的是：

哦，还有：

实施例2

现在让我们看一个示例，其中字符的 windows-1252 字节编码字节不与其 unicode 代码点编号匹配。

参见：

python序列

这里的操作序列与我们在示例 1 中执行的操作相同，但这次使用了以欧元符号开头的短字符串。

>>> s_0 = "€30">>> print( list( ord(a_char) for a_char in list(s_0) ) )[8364, 51, 48]>>> ba_1 = s_0.encode( "utf-8", "surrogateescape")>>> print( list( ba_1 ) )[226, 130, 172, 51, 48]>>> ba_2 = s_0.encode("cp1252", "backslashreplace")>>> print( list( ba_2 ) )[128, 51, 48]>>> s_1 = ba_2.decode("utf-8", "surrogateescape")>>> print( list( ord(a_char) for a_char in list(s_1) ) )[56448, 51, 48]>>> ba_3 = s_1.encode( "utf-8", "surrogateescape")>>> print( list( ba_2 ) )[128, 51, 48]>>> s_2 = ba_3.decode("cp1252")>>> print( list( ord(a_char) for a_char in list(s_2) ) )[8364, 51, 48]>>> print( s_2)€30

这次注意事项：

尾注

我也许应该补充一点，我并不声称这里显示的方法是完整的或无懈可击的。这只是我添加到我的程序中以应对它所遇到的情况的内容。我确实计划在晚些时候重新审视这一切，但还有很多重要的其他功能将首先出现。所以，根本不是“现在很快”。

文章推荐

使用 Python os 模块和 Unicode 进行字符编码

实施例1

编码

python序列

实施例2

python序列

尾注

Python实现字典的key和values的交换

使用Python脚本来获取Cisco设备信息的示例

Python的Django中django-userena组件的简单使用教程

零基础写python爬虫之神器正则表达式

零基础写python爬虫之抓取百度贴吧代码分享