利用零售数据建立预测仪表板
本文翻译自Arpita Ghosh的文章—《Build Forecasting Dashboard with Retail Data》来源:Medium 要了解任何工具或技术,最好是通过案例研究或创建自我探索项目。本篇文章将带领您进行零售数据分析,并探索 Power BI 中的预测和创建日期表功能。
一、数据集
如果您在 Kaggle 上搜索任何特定领域的数据,您肯定会得到很多选择。所以,请务必为你的项目明智地选择数据集。这次我选择了零售数据。
数据源网站:https://www.kaggle.com/manjeetsingh/retaildataset
二、摘要
在这个数据集中,有三个文件:销售数据集、特征数据集和门店数据集。
在对数据文件进行分析后,我们注意到以下几点:
数据包含 45 家商店的每周销售信息,包括商店的规模和类型。
它包含部门信息、CPI(消费者价格指数)值、降价信息等。
三、学习目标
本案例研究的主要目标如下:
- 功能目标:建立零售分析仪表板
a. 记分卡信息:
店铺总数、销售总额、部门数量、平均消费物价指数
b. 可视化报告
i. 每周销售预测
ii. 每周销售趋势分析
iii. 利润较高的周次
iv. 利润较高的商店
v. 按店铺类型划分的销售额
vi. 平均消费价格指数趋势分析
c. 报告应根据年份进行筛选
- 技术目标
a. 如何在 Power BI 中创建日期表
b. 如何创建预测仪表板
四、导入数据
让我们从 "主页 "选项卡下的 "获取数据 "选项开始。由于这是一个 CSV 文件,请从下拉列表中选择文本/CSV 选项。
选择名为 "特征数据集.csv "的文件。
选择文件后,数据将以以下格式显示:
单击 "转换数据 "并导航到 Power Query 编辑器。
现在将另外两个数据添加进来。在 Power Query编辑器的 "主页 "选项卡下,单击 "新建源",然后单击 "文本/CSV"。选择下一个文件 sales data-set.csv,然后按确定添加到编辑器中。
按照相同步骤处理存储数据集。
五、转换数据
加载完数据后,便可以开始数据剖析和数据转换。这是所有数据分析项目中最重要的一步。
现在我们进入 Power Query 编辑器。
-
首先将表重命名为 "特征、销售、门店"。
-
转到 "特征 "表。
a. 注意 CPI (消费者价格指数)的数据类型是文本。
b. 我们需要将其更改为数字类型。
c. 有一些行包含值 "NA"。
d. 选择 CPI -> 右键单击 → 选择 "替换值"。在此用 0 替换 "NA "值
e. 将 CPI 的数据类型更改为十进制数。
- 点击 "主页 "选项卡下的 "关闭并应用",退出 Power Query 编辑器。
六、创建日期表
现在我们进入了 Power BI 的主编辑器,其中有模型、数据和报告部分。为了进行分析,我们需要创建一个常用的日期表。
-
点击左侧导航窗格中的‘数据’
-
点击 "计算 "选项卡下的 "新建表"。
3.要创建日期表,请编写 Date = CALENDARAUTO()。新日期表的日期列将会创建。
我们已经加载了包含日期列的表。因此,Power BI 将这些数据作为创建和填充此数据表的参考。
在特征表和销售表中,有日期列,但不包含连续信息。对于任何时间序列或预测分析,我们都需要连续的日历信息。此数据表的目的就是填充连续的日期信息。
- 现在在日期表中创建其他列(使用新建列),用于数据可视化。
a. Year = YEAR(‘Date’[Date])
b. MonthNum = FORMAT(‘Date’[Date],”MM”)
c. Month = FORMAT(‘Date’[Date],”MMM”)
d. WeekNum = WEEKNUM(‘Date’[Date],2)
e. Week Start Date = ‘Date’[Date]-WEEKDAY(‘Date’[Date],2)
f. Week End Date = ‘Date’[Date]-WEEKDAY(‘Date’[Date],2)+7
-
选择不汇总所有数字字段。
-
将 "月份 "的 "排序依据 "列改为 "月份编号"。
七、建立数据模型
要使用这 4 张表建立适当的数据模型,请单击左侧面板中的模型。
-
要在两个表之间创建关系,最好使用拖动方法。
-
选择 Store 表的 Store 列 -> 拖放到 Sales 表的 Store 列。
-
观察建立的 1 对多关系。这意味着 "门店 "表中的一条记录在 "销售 "表中有多条记录。
-
按照同样的方法创建以下关系。
a. 门店表 → 特征表:1 对多关系(使用两个表的 "商店 "列)
b. 日期表 →> 销售表:1 对多关系(使用两个表的日期列)
c. 日期表 -> 特征表:1 到多关系(使用两个表的日期列)
- 以下是创建所有关系后的最终数据模型
八、数据可视化
现在进入创建报告部分。
编写度量值
首先,我们使用 "主页 "选项卡 "计算 "组下的 "新建度量值 "创建以下度量。
- 销售表
-
每周销售总额:每周销售总额 = SUM('销售额'[每周销售额])
-
部门数量:部门数 = DISTINCTCOUNT('Sales'[Dept])
- 商店表
- 商店总数:商店总数 = DISTINCTCOUNT('商店'[Store])
- 特征表
- Avg CPI(平均 CPI):Avg CPI = AVERAGE('Features'[CPI])
创建报告
让我们来探索一些可视化方法。
- 首先为该报告选择主题。转到 "视图 "选项卡 → 在 "主题 "下选择任何你喜欢的主题。我选择的是潮汐主题。
- 将页面重命名为摘要。创建以下报告以实现我们的功能目标。
a. 切片:年份
b. 卡片
i. 商店总数
ii. 每周销售总额
iii. 部门数量
iv. 平均消费物价指数
c. 表格:利润较高的周(在 "格式 "部分,我选择了 "有格式行 "样式)
d. 表格:利润较高的商店(选择样式相同)
e. 树状图:按店铺类型划分的销售额
f. 折线图:平均消费价格指数趋势
g. 区域图:每周销售趋势分析
h. 折线图 每周销售预测
i. 首先创建带有日期和每周销售总额字段的折线图。
ii. 将日期字段从日期层次结构更改为日期
iii. 转到本视图的 "分析 "部分。
iv. 点击预测 → 添加一个预测。添加以下详细信息。
-
预测长度:6 个月
-
忽略最后:0
a. 在忽略最后 3 个月中加入 3。这样,我们就可以将 Power BI 的预测结果与数据集最后 3 个月的实际数据进行比较。
b. 在忽略最后一列中恢复为 0。
-
置信区间:95
-
季节性:70 点。
九、发布到Power BI Service
要发布报告,请转到 "文件 "选项卡,选择 "发布 "和 "我的工作区"。现在登录 Power BI 服务 URL并进入 "我的工作区",查看零售数据分析报告。
十、结论
在本指导项目中,我们学习了以下内容。
-
一些样本零售数据的外观
-
零售分析报告原型
-
在 Power BI 中创建日期表功能
-
如何在 Power BI 中创建预测报告
如果您想深入学习微软Power BI,欢迎登录网易云课堂试听学习我们的“从Excel到Power BI数据分析可视化”系列课程。或者关注我们的公众号(PowerPivot工坊)后猛戳”在线学习”。
长按下方二维码关注“Power Pivot工坊”获取更多微软Power BI、PowerPivot相关文章、资讯,欢迎小伙伴儿们转发分享~
Power Pivot工坊
自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)