PHP前端开发

网站时间数据集

百变鹏仔 3天前 #Python
文章标签 时间

您好,我在kaggle上发现了一个网站使用时间的数据集,所以我想找到访问页面数与网站总时间之间的比率。

您可以在我的github中找到数据集和代码:https://github.com/victordalet/kaggle_analysis/tree/feat/website_traffic


一、安装

为此,我在 python 中使用 sqlalchemy 将 csv 转换为数据库,并以绘图方式显示我的结果。

pip install plotlypip install sqlalchemy

ii - 代码

我创建一个 main 类,在其中使用 get_data 方法检索 csv 并将其放入数据库中。
结果是一个元组列表,因此我创建了transform_data方法来获取双列表。
最后,我可以显示查看的页面数和总时间之间的简单图表。

import pandas as pdfrom sqlalchemy import create_engine, textimport plotly.express as pxclass Main:    def __init__(self):        self.result = None        self.connection = None        self.engine = create_engine("sqlite:///my_database.db", echo=False)        self.df = pd.read_csv("website_wata.csv")        self.df.to_sql("website_data", self.engine, index=False, if_exists="append")        self.get_data()        self.transform_data()        self.display_graph()    def get_data(self):        self.connection = self.engine.connect()        query = text("SELECT Page_Views, Time_on_Page FROM website_data")        self.result = self.connection.execute(query).fetchall()    def transform_data(self):        for i in range(len(self.result)):            self.result[i] = list(self.result[i])    def display_graph(self):        fig = px.scatter(            self.result, x=0, y=1, title=""        )        fig.show()Main()

三、结果

x 轴表示用户访问的页面数,而 y 轴表示用户在网站上花费的时间(以分钟为单位)。

我们可以看到,在 4 到 6 个页面之间停留时间最长的用户,在 11 到 15 个页面之间,所有用户都至少停留了几分钟。