PHP前端开发

用 Pandas 将 CSV 文件另存为 XLSX 后时间值变为 NaN,如何解决?

百变鹏仔 5天前 #Python
文章标签 另存为

修复 pandas 将 csv 文件另存为 xlsx 文件后读取时间值变为 nan 的问题

在使用 pandas 读写文件时,时间值处理是一个常见的痛点。当您将 csv 文件另存为 xlsx 文件后再次读取时,时间值可能会变成 nan。下面解释这个现象并提供一个解决方案。

问题原因:

当 pandas 将 csv 文件另存为 xlsx 时,它将时间值存储为 excel 数字格式。excel 存储日期和时间的方式与 pandas 不同。当您再次使用 pandas 读取 xlsx 文件时,它无法识别这些数字格式的时间值,因此将其解释为 nan。

解决方案:

要解决此问题,您需要在读取 xlsx 文件时指定 parse_dates 和 date_parser 参数。parse_dates 指定要解析为日期时间的列,而 date_parser 指定用于解析的函数。

以下示例展示了解决方案:

df = pd.read_csv('input.csv')df.to_excel('output.xlsx', index=False)# 读取 XLSX 文件时指定参数df = pd.read_excel('output.xlsx', parse_dates=['审核入库时间列'], date_parser=lambda x: pd.to_datetime(x, format='%Y-%m-%d %H:%M:%S'))

在上面的例子中,parse_dates 参数指定了 审核入库时间列 列应该解析为日期时间。date_parser 参数指定了将数字格式的时间值转换为日期时间对象的函数。在这种情况下,我们使用 pd.to_datetime 函数,并指定了 '%y-%m-%d %h:%m:%s' 的格式。

通过指定这些参数,pandas 能够正确解析 xlsx 文件中的时间值,从而防止它们变为 nan。