详解小程序的python和bash版本比较

百变鹏仔 3个月前 (03-13) #前端问答

文章标签详解

最近有一个小需求：在一个目录下有很多文件，每个文件的第一行是begin开头的，最后一行是end开头的，中间每一行有多列，数量不等，第一列称为"dn", 第二列称为"cv"，dn和cv的联合作为主键，现在需要检测文件中是否有重复的dn-cv。

于是写了个简单的python程序

#! /usr/bin/pythonimport osimport syscmd = "cat /home/zhangj/hosts/* | grep -v BEGIN | grep -v END"def check_dc_line(): has_duplicate = False dc_set = set() for dc_line in os.popen(cmd, 'r').readlines():  dc_token = dc_line.split()  dn = dc_token[0]  cv = dc_token[1]  dc = dn + "," + cv  if dc in dc_set:   print "duplicate dc found:", dc   has_duplicate = True  else:   dc_set.add(dc) return has_duplicateif not check_dc_line():    print "no duplicate dc"

对于250个文件，共60万行的数据，过滤一遍约1.67秒

有点不甘心这个效率，于是又写了一个同样功能的shell脚本

#! /bin/bashcat /home/zhangj/hosts/* | grep -v BEGIN | grep -v END | awk ' BEGIN {  has_duplicate = 0 } {  dc = $1","$2;   if (dc in dc_set)   {   print "duplicate dc found", dc    has_duplicate = 1  }   else {   dc_set[dc] = 1  } } END {  if (has_duplicate ==0)  {   print "no duplicate dc found"  } }'

为了进一步比较，重复了10次实验。

立即学习“Python免费学习笔记（深入）”；

文章推荐

详解小程序的python和bash版本比较

微信三级分销系统产品详情页怎么开发?

微信公众号-获取用户信息（网页授权获取）实现步骤

php微信公众号开发（2）百度BAE搭建和数据库使用

php微信公众号开发（3）php实现简单微信文本通讯

php微信公众号开发（4）php实现自定义关键字回复