计算机毕业设计Python+Spark考研预测系统 考研推荐系统 考研数据分析 考研大数据 大数据毕业设计 大数据毕设

安顺学院本科毕业论文(设计)题目申请表

院别:数学与计算机科学      专业:数据科学与大数据     时间:2022年 5月26日

题目名称

基于hive数据仓库的考研信息离线分析系统的设计与实现

学生姓名

杨娣荧

学号

201903144042

题目来源

A.实 验   √B.实习实践  C.社会调查   D.作品展示/毕业汇演      E其他

√A.学生自拟  B.教师推荐

题目类别

   A.论文        √B.设计

选 题 可 行 性 分 析

经济上的可行性:

基于hive数据仓库的考研信息离线分析系统,对技术的相关方面有相应的一些要求, 特别是在hive数据仓库方面,然而经过平时的坚持学习,这已不是问题,在硬件以及软件方面的环境要求都不算太高,经济方面具有较高的可行性。

技术上的可行性:

在本系统的开发中,需对前端技术,后端,hive以及IDEA、Pycharm开发工具具有一定的编码能力和操作能力,而经过大学四年的学习,对此有一定的了解及编码实践,另外在网站上有大量的学习视频,从而,在技术上可以实现。

开发上的可行性

此系统是B/S架构的系统,只需有浏览器即可,使得本系统可以很轻松的得到硬件的支撑并且运行起来,硬件并不需要安装一些软件支撑,这降低了开发的复杂度以及成本,所以在开发上是可行的。

指 导 教 师 意 见

       指导老师签字:                              

院本科毕业论文(设计)指导小组审核意见

组长签字:                           

安顺学院本科毕业论文(设计)开题报告

完成时间:     年   月   日

论文题目

基于hive数据仓库的考研信息离线分析系统的设计与实现                  

学生姓名

杨娣荧

专   业

数据科学与大数据技术

学   科

工学

电子邮箱

1047399243@qq.com

联系电话

18786125674

指导教师

于为

随着互联网技术的飞速发展,人们日常所产生的数据也在日益增长,社会也步入了大数据时代而数据多带来的不仅仅存储方面的问题在数据价值方面也带来了不可忽视的问题

大量的数据中,人们很难找到所需要有价值的数据。另外,网络的发达,同时也存在不少安全隐患,人们在找寻自己想要的数据时,可能会得到虚假信息,甚者,个人信息被盗取。所以本项目通过爬取数据分析存储于数据仓库中,以最直观的方法展现出来便于查询。

研 究 现 状 述 评

由于大数据时代的到来,人们每天产生的数据过多且冗余,数据密度高价值低的问题所以在大量的数据下面人们很难找出有价值的那部分数据现目前考研的人越发的多,但最开始的小白不知道从哪里抓起,上网查询资料,数据过于大量且繁琐,耽误很多时间,而本项目则是通过爬取研招网将各大学校的招生人数,专业及需要考查的科目收集整理做一个可视化平台,供有需要的人方便查询,用户可通过注册登录进入系统搜索自己想了解的信息。

拟 研 究 的 目 标 和 主 要 内 容

拟研究的目标:

本系统主要是运用Python语言、hive数据仓库、大数据分析技术以及Pycharm开发工具等技术和软件展现考研信息离线分析可视化,项目要求有数据采集,数据清洗,数据存储和数据展示等功能,在整体上能够给客户最直观的看到有价值的信息。

拟研究的主要内容:

通过爬取研招网及各大高校的考研信息数据,爬取各大院校的招生专业、招生人数及往年的录取分数线等,存储于本地数据库中,再通过sqoop将数据上传到hive数据仓库对数据进行清洗及分析,最后对其呈现一个可视化平台及实现用户查询功能。

研 究 的 主 要 方 法、手 段 和 途 径 及 研 究 进 度 计 划

主要方法:

    需求分析、结构设计、数据采集、数据库分析、数据库设计、数据库搭建、前端界面设计、大数据架构选型、大数据分析、大数据开发、后端开发、系统测试和系统运行维护。

主要手段

    通过实现各个模块方法,实现大数据架构与后端联调,前后端的构建为主要手段,先采用大数据对数据进行分析,将分析后的数据存储到数据库,后端从数据库中获取数据,传给前端,前端进行展示。

主要途径:

    为实现其功能和需求,开发工具使用Pycharm、IDEA,数据库搭建使用Navicat数据库客户端连接工具,服务器使用Apache服务器,大数据开发环境为linux环境,后端使用springboot的java框架。

进度计划:

2022年05月22日至06月2日:毕业设计选题

2022年06月28日至06月30日:完成论文开题报告

2022年07月01日至07月4日:进行开题答辩  

2022年07月05日至07月25日:实现系统的所有实现与设计,并且完成初稿

2022年07月28日至07月30日:进行中期检查

2022年08月01日至08月20日:修改初稿并完成论文二稿

2022年08月22日至08月28日:完成该系统的各项测试

2022年08月22日至09月16日:修改二稿并完成论文三稿

2022年09月16日至09月17日:指导教师评阅时间

2022年09月18日至09月20日:评阅教师评阅时间

2022年09月21日至09月25日:进行论文答辩

2022年09月26日至09月28日:论文定稿

论   文   提   纲

1.绪论

    简述课题背景及来源、国内外研究现状、研究的目标和内容、和课题的意义和目的。

2.系统开发环境及相关技术

    开发环境:IDEA后端开发以及大数据开发,Pycharm数据爬取,navicat数据库设计,linux大数据环境搭建。

    技术选型:前端使用html,css,javascript以及echars组件进行展示,后端使用java开源框架springboot,和数据库连接框架mybatis和mysql,大数据使用zookeeper进行集群分布式协调,flume和kafka进行数据采集和传输,hbase进行数据离线存储,hive实时同步hbase数据进行离线分析,spark streaming对数据进行实时分析并且存储。

3.基于hive数据仓库的考研信息离线分析可视化平台分析

    研究目标、平台需求分析、可行性分析、性能分析。

4.基于hive数据仓库的考研信息离线分析可视化平台设计

    mysql,hive数据库的设计、平台总体框架。

5.基于hive数据仓库的考研信息离线分析可视化平台展现

    主要实现的功能模块:前端数据展示,大数据数据获取,数据清洗,数据存储,数据展示,后端接口编写,数据库设计。

 6.结语

     从此项目中对项目的从0到1开发,从前端到后端再到大数据进行了一个贯通,对个人的成长极其重要

开 题 报 告 主 要 参 考 文 献

[1]邓凤明. 大数据生态系统大数据分析与应用实验课程体系中的应用研究[D].中央民族大学,2019.

[2]A Study of Multicultural Space in Seoul : Analysing the Coverage of Foreign Communities with News Big Data Analytics ‘BigKinds’ for 27 Years[J]. Journal of Media Economics & Culture,2017,15(2):

[3]李维,陈江治,程丽萍,刘雨航,魏周思宇.大数据分析对消费者行为的影响[J].商业故事,2018,{4}(20):107.

[4]戴红芳,罗金光,先晓兵.基于数据仓库的数据分析探索与实践[J].中国教育信息化,2015(10):13-15.

[5]高运华.基于数据仓库的数据质量分析和评估[J].黑龙江科技信息,2014(20):165.

[6]王峰.基于数据仓库的大学生成绩分析与应用[J].计算机光盘软件与应用,2013,16(05):207-208.

[7]刘珍珍.基于数据仓库的高中学生成绩分析模型设计[J].电脑知识与技术,2011,7(03):495-496.

[8]岳晓融,张立国.大数据分析在高校精准化就业服务模式中的应用研究[J].中国教育信息化,2022,28(05):105-113.

[9]Lee In,Mangalaraj George. Big Data Analytics in Supply Chain Management: A Systematic Literature Review and Research Directions[J]. Big Data and Cognitive Computing,2022,6(1).

[10]程学旗,刘盛华 ,张儒清 .大数据分析处理技术新体系的思考[J].中国科学院院刊,2022,37(01):60-67.DOI:10.16418/j.issn.1000-3045.20211117005.

[11]王宏,嵇绍国.大数据分析的现实应用及发展趋势研究[J].信息网络安全,2021(S1):134-138.

[12]Raghotham Murthy,Rajat Goel. Peregrine: Low-latency queries on Hive warehouse data[J]. XRDS: Crossroads, The ACM Magazine for Students,2012,19(1).

[13]王庆涛,吕迎丽.试论如何采用数据仓库技术建设管理信息系统[J].信息通信,2020(06):188-189.

[14]方昕.数据仓库技术在高校信息系统的运用[J].信息与电脑(理论版),2019(10):143-144.

[15]张军,王芬芬.数据仓库技术在高校数据统计与分析系统中的应用研究[J].智能计算机与应用,2019,9(03):122-125.

指 导

教 师

意 见

指导教师(签名):               

  

                  

(设计)

组  

审  

核  

意  

审核组长(签名):                 

审核小组成员(签名):1.              

                            2.              

                            3.              

                            4.              

                 

核心算法代码分享如下:

# coding=utf-8
import sysimport demjson
from tool import SqlHelper"""
绘画动态国家线柱状图需要的数据
"""
# 定义结构
total_data = {}def createJson(subject, scores):# sql调用sql = SqlHelper.MySQLhelper()# 年份years = []# 查询年份information = sql.fetch_all_args("select distinct year from stateline where subject = %s order by year", (subject))for infor in information:# 添加年份years.append(str(infor['year']))# 根据年份和类别查询分数inforsA = sql.fetch_all_args("select * from stateline where subject = %s and year = %s and classifier = 'A类'",("理学", infor['year']))inforsB = sql.fetch_all_args("select * from stateline where subject = %s and year = %s and classifier = 'B类'",("理学", infor['year']))# 转换格式,添加列表for inforA, inforB in zip(inforsA, inforsB):datas = []data = {}daA = []daB = []daY = []# 添加B类地区分数daB.append(inforB['equal100'])daB.append(inforB['greater100'])daB.append(inforB['total'])data['data'] = daBdatas.append(data)data = {}# 添加你输入的分数daY.append(scores[0])daY.append(scores[1])daY.append(scores[2])data['data'] = daYdatas.append(data)data = {}# 添加A类地区分数daA.append(inforA['equal100'])daA.append(inforA['greater100'])daA.append(inforA['total'])data['data'] = daAdatas.append(data)# 添加分数数据total_data['y' + str(infor['year'])] = datas# 添加年份total_data['years'] = years# 添加专业total_data['subject'] = subjectif __name__ == '__main__':subject = sys.argv[1]scores = demjson.decode(sys.argv[2])# subject = '理学'# scores = {'scores': [55,55,155]}# 调用生成json函数createJson(subject, scores['scores'])print(total_data)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/831780.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为鸿蒙系统(Huawei HarmonyOS)

华为鸿蒙系统(华为技术有限公司开发的分布式操作系统) 华为鸿蒙系统(HUAWEI HarmonyOS),是华为公司在2019年8月9日于东莞举行的华为开发者大会(HDC.2019)上正式发布的分布式操作系统。 华为鸿蒙…

使用DependencyCheck工具检测JAR依赖包的安全漏洞

引言 Dependency-Check 是一个开源工具,用于检测软件项目中使用的第三方库和组件是否存在已知的安全漏洞。它可以帮助开发团队及时发现和解决项目中的潜在安全风险,从而提高软件的安全性。 该工具通过分析项目的依赖关系,识别其中使用的第三方库和组件,并与已知的漏洞数据…

IOS 开发 - block 使用详解

1.Blobk的定义 block的写法相对难记,不必司机应被,只需要在xcode里打出"inlineBlock"--回车, 系统会自动帮你把基础版写法给你匹配出来 //Block的基础声明//等号""之前是blobk的声明,等号“”后面是block的实现/*returnType:返回类型(void、int、String *…

zabbix监控Tongweb7企业版(by lqw+sy)

此贴参考zabbix通过jmx监控Tongweb7企业版(by lqw),是在此帖子的基础和同事整理的文档基础上重新部署验证的优化版,使用的是centos7。 优点: 1.不需要通过jmx配置进行监控。(jmx配置需要修改tongweb的配置…

IO复用技术(1)——select/poll/epoll原理介绍及使用案例

文章目录 1.Select1.1 工作流程1.2 fd_set函数1.3 select函数1.4 例程 2.poll2.1 poll函数2.2 例程 3.epoll3.1 工作流程3.2 相关函数3.3 epoll的两种工作模式3.4 示例代码 4.总结 原理:使用一个线程来检查多个文件描述符,委托内核进行检查,如…

Mac OS系统如何更新

用了好几年的Mac Book安装软件经常提示需要更高的系统版本,因此要升级系统版本,但是开始在系统设置里面找了一下没有找到升级的按钮,找了资料后才知道如何升级。有以下两种入口 一、App Store搜索MacOs,在出现的搜索结果中选择下载…

微服务----nacos配置及简单使用

目录 什么是nacos 项目在nacos上进行注册 注入nacos依赖 配置application.yml文件 nacos写入配置文件 首先,还是需要导入依赖 然后在nacos中编写配置文件 prod是我自定义的一个命名空间,在这里面进行配置文件编写~ 启动类上加上注解 编写Patt…

SpringBoot+Vue项目企业客户管理系统

一、前言介绍 本文主要论述了如何使用JAVA语言开发一个企业客户管理系统,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论述企业客户管理系统的当前背景以及系统开…

Qt之信号与槽

槽的本质:对信号响应的函数。 信号函数和槽函数通常位于某个类中,和普通的成员函数相⽐,它们的特别之处在于: 信号函数⽤ signals 关键字修饰,槽函数⽤ public slots、protected slots 或者 private slots 修饰。sign…

数据结构---单链表

题目&#xff1a;构造一个单链表。 使用的软件&#xff1a;VS2022使用的语言&#xff1a;C语言使用的项目&#xff1a;test.c Setlist.h Setlish.c 项目实践&#xff1a; Setlist.h的代码为&#xff1a; #pragma once#include<stdio.h> #include<stdlib.h> #incl…

【算法小白周赛2】A.朋友遍天下(easy)C++代码和题解

题目链接&#xff1a;https://www.starrycoding.com/problem/165 题目描述 本题与hard版本有一定区别&#xff0c;仅“拜访时间安排表”的规则相同&#xff0c;hard版本需要进行一定修改才能通过easy版本。 醋酸锌有许多的好友&#xff0c;为了能好好拜访他的每一个好友&…

Java | Leetcode Java题解之第67题二进制求和

题目&#xff1a; 题解&#xff1a; class Solution {public String addBinary(String a, String b) {StringBuffer ans new StringBuffer();int n Math.max(a.length(), b.length()), carry 0;for (int i 0; i < n; i) {carry i < a.length() ? (a.charAt(a.leng…

单调栈|496.下一个更大元素I

力扣题目链接 class Solution { public:vector<int> nextGreaterElement(vector<int>& nums1, vector<int>& nums2) {stack<int> st;vector<int> result(nums1.size(), -1);if (nums1.size() 0) return result;unordered_map<int, …

连接和使用vCenter Server嵌入式vPostgres数据库

vCenter Server 早期支持内嵌(embedded)和外部(external)数据库,内嵌数据库就是vPostgres,基于VMware Postgres数据库(PostgreSQL数据库),外部数据库用的多的是Oracle数据库和SQL Server数据库。因为早期使用内嵌的PostgreSQL数据库只能用于小型环境,比如仅支持几十台…

SpringBoot对接前端传递的base64编码的图片信息,转成图片以Get请求进行浏览器文件下载,不下载到本地。

一、问题描述 1.1需求描述。 前端将浏览器展示的图片以base64编码的形式传递给后端&#xff0c;以此实现文件下载的功能&#xff0c;在浏览器弹出文件下载框。效果如下 1.2实现思路 将前端传递的base64进行解码&#xff0c;设置响应头返回响应体&#xff0c;代码如下。 pu…

ubuntu22.04 cmake 配置mysql

报错信息&#xff1a; CMake Error at CMakeLists.txt:33 (find_package): By not providing “FindMySQL.cmake” in CMAKE_MODULE_PATH this project has asked CMake to find a package configuration file provided by “MySQL”, but CMake did not find one. Could not…

【02358单片机原理及应用】第三、四、五章考试复习自考复习

第3章 80C51单片机指令系统 考试知识点&#xff1a; 1、寻址方式 &#xff08;1&#xff09;立即寻址&#xff08;#data&#xff0c;#data16&#xff09;例&#xff1a;MOV A&#xff0c;#00H &#xff08;2&#xff09;直接寻址&#xff08;direct&#xff09;内部RAM…

古典密码学简介

目录 C. D. Shannon: 一、置换密码 二、单表代替密码 ① 加法密码 ② 乘法密码 ③密钥词组代替密码 三、多表代替密码 代数密码 四、古典密码的穷举分析 1、单表代替密码分析 五、古典密码的统计分析 1、密钥词组单表代替密码的统计分析 2、英语的统计规…

电商核心技术揭秘四十七:社会化营销中的社区建设

相关系列文章 电商技术揭秘相关系列文章合集&#xff08;1&#xff09; 电商技术揭秘相关系列文章合集&#xff08;2&#xff09; 电商技术揭秘相关系列文章合集&#xff08;3&#xff09; 电商技术揭秘四十一&#xff1a;电商平台的营销系统浅析 电商技术揭秘四十二&#…

【业务场景】京东实际场景,频繁GC引起的CPU飙高问题的解决

目录 1.业务介绍 2.判断任务类型 3.CPU飙高的原因 1.业务介绍 本文的业务场景是京东零售线公开的一篇文章&#xff0c;文章内容详细介绍了京东零售线如何将广告相关的定时任务从半小时优化到秒级的&#xff0c;原文链接&#xff1a; 半小时到秒级&#xff0c;京东零售定时…