网站时间数据集

您好,我在kaggle上发现了一个网站使用时间的数据集,所以我想找到访问页面数与网站总时间之间的比率。

您可以在我的github中找到数据集和代码:https://github.com/victordalet/kaggle_analysis/tree/feat/website_traffic


一、安装

为此,我在 python 中使用 sqlalchemy 将 csv 转换为数据库,并以绘图方式显示我的结果。

pip install plotly
pip install sqlalchemy

ii - 代码

我创建一个 main 类,在其中使用 get_data 方法检索 csv 并将其放入数据库中。
结果是一个元组列表,因此我创建了transform_data方法来获取双列表。
最后,我可以显示查看的页面数和总时间之间的简单图表。

import pandas as pd
from sqlalchemy import create_engine, text
import plotly.express as px


class Main:
    def __init__(self):
        self.result = None
        self.connection = None

        self.engine = create_engine("sqlite:///my_database.db", echo=False)
        self.df = pd.read_csv("website_wata.csv")
        self.df.to_sql("website_data", self.engine, index=False, if_exists="append")
        self.get_data()
        self.transform_data()
        self.display_graph()


    def get_data(self):
        self.connection = self.engine.connect()
        query = text("SELECT Page_Views, Time_on_Page FROM website_data")
        self.result = self.connection.execute(query).fetchall()

    def transform_data(self):
        for i in range(len(self.result)):
            self.result[i] = list(self.result[i])


    def display_graph(self):
        fig = px.scatter(
            self.result, x=0, y=1, title=""
        )
        fig.show()


Main()

三、结果

x 轴表示用户访问的页面数,而 y 轴表示用户在网站上花费的时间(以分钟为单位)。

我们可以看到,在 4 到 6 个页面之间停留时间最长的用户,在 11 到 15 个页面之间,所有用户都至少停留了几分钟。

网站时间数据集

以上就是网站时间数据集的详细内容,更多请关注其它相关文章!