Python数据分析之真实IP请求Pandas详解
前言
pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas 约定俗成的导入方法如下:
from pandas import Series,DataFrameimport pandas as pd
1.1. Pandas分析步骤
1、载入日志数据
立即学习“Python免费学习笔记(深入)”;
2、载入area_ip数据
3、将 real_ip 请求数 进行 COUNT。类似如下SQL:
SELECT inet_aton(l.real_ip), count(*), a.addrFROM log AS lINNER JOIN area_ip AS a ON a.start_ip_num = inet_aton(l.real_ip)GROUP BY real_ipORDER BY count(*)LIMIT 0, 100;
1.2. 代码
cat pd_ng_log_stat.py#!/usr/bin/env python#-*- coding: utf-8 -*- from ng_line_parser import NgLineParser import pandas as pdimport socketimport struct class PDNgLogStat(object): def __init__(self): self.ng_line_parser = NgLineParser() def _log_line_iter(self, pathes): """解析文件中的每一行并生成一个迭代器""" for path in pathes: with open(path, 'r') as f: for index, line in enumerate(f): self.ng_line_parser.parse(line) yield self.ng_line_parser.to_dict() def _ip2num(self, ip): """用于IP转化为数字""" ip_num = -1 try: # 将IP转化成INT/LONG 数字 ip_num = socket.ntohl(struct.unpack("I",socket.inet_aton(str(ip)))[0]) except: pass finally: return ip_num def _get_addr_by_ip(self, ip): """通过给的IP获得地址""" ip_num = self._ip2num(ip) try: addr_df = self.ip_addr_df[(self.ip_addr_df.ip_start_num <p> </p><p>运行统计和输出结果</p><pre class="brush:python;toolbar:false">python pd_ng_log_stat.py count addrreal_ip 60.191.123.80 101013 浙江省杭州市- 32691 None218.30.118.79 22523 北京市......136.243.152.18 889 德国157.55.39.219 889 美国66.249.65.170 888 美国 [100 rows x 2 columns]
总结