文章目录
- 项目介绍
- 项目指标
- 1)页面浏览量(PV):
- 2)独立访客数(UV):
- 3)每小时环比增长:
- 4)每小时同比增长:
- 5)跳出率(Bounce Rate):
- 环境搭建
项目介绍
1)本项目主要采的是一个电商商城项目的数据集,计算里面的数据。
2)数据采集、存储、处理到指标计算全流程。在这个项目中,将从日志数据出发,首先利用Flume将数据实时采集并传输到Hive中,为后续的数据处理和计算打下坚实的基础。
3)在数据进入Hive后,我们将借助Spark on Hive这一强大的计算引擎对数据进行批量处理。项目的核心任务在于利用Spark SQL对存储在Hive中的数据进行高效计算,从中提取关键指标——如PV(页面浏览量)和UV(独立访客数)。不仅如此,还将进一步计算衍生指标,例如环比和类比,通过按小时统计数据变化,查看业务趋势和用户行为模式。
4)整个项目的流程设计紧密围绕实际业务场景展开:从数据的实时采集、结构化存储,到批量数据的智能计算,再到关键指标的深入分析
项目指标
1)页面浏览量(PV):
衡量网站页面被访问的总次数。每当用户加载或刷新页面时,PV计数增加一次。
2)独立访客数(UV):
统计在特定时间段内访问网站的唯一用户数量。通常通过用户的唯一标识(如Cookie或用户ID)进行识别,同一用户多次访问仅计为一个UV。
3)每小时环比增长:
比较当前小时的指标(如PV或UV)与前一小时的变化情况,计算增长率。公式为:
该指标帮助我们了解指标在短时间内的变化趋势。
4)每小时同比增长:
比较当前小时的指标与前一天相同小时的指标,计算增长率。公式为
该指标用于评估指标在每日相同时段的变化情况,帮助识别周期性趋势。
5)跳出率(Bounce Rate):
衡量用户在仅浏览一个页面后即离开网站的比例。计算公式为:
其中,单页访问次数指用户仅查看一个页面后离开的次数。跳出率是评估页面内容质量和用户体验的重要指标。
环境搭建
hadoop -3.2.2
zookeeper-3.6.3