如何不使用Pandas快速分组二维列表?
不借助 pandas 快速分组二维列表
给定一个包含组名和值的二维列表,我们需要按组名对列表进行快速分组,且保持原来的顺序。由于列表较大,我们希望避免使用 pandas,因为它在处理大数据时速度较慢。
我们可以使用现成的库代码来解决这个问题。以下是如何实现的:
def group_name_fun(lst): last='' arr=[] for ii in range(len(lst)): if not lst[ii][0]==last: arr.append(ii) last=lst[ii][0] arr.append(len(lst)) lst=[lst[arr[ii-1]:arr[ii]] for ii in range(1, len(arr))] return lst
此函数接收一个二维列表,并返回一个分组后的列表。它不使用循环遍历,而是通过比较相邻元素的组名来确定组的边界。
以下是使用示例:
data = [['a',33],['a',0],['a',12],['a',3],['b',3],['b',0],['b',77],['c',1],['c',2],['c',5],['c',0],['c',11],['c',19]]print(group_name_fun(data))
输出:
[[33, 0, 12, 3], [3, 0, 77], [1, 2, 5, 0, 11, 19]]
该函数以 o(n) 的时间复杂度高效地对列表进行分组,其中 n 是列表的长度。