【功能介绍】
1. 网站Java爬取【豆瓣图书】中图书数据, 保存为data.csv文件, 数据量1万+
2. data.csv上传到hadoop集群环境
3. data.csv数据清洗
4.创建Spark库以及对应的数据库表, 数据汇总处理, 将Spark分析的结果数据保存到本地Mysql数据库中
5. Springboot+Echarts+MySQL 显示数据分析结果
数据维度分别为【图书类型数量】【各年份图书出版数量】【各国家图书数量】【各国作者数量】【书籍类型评价均分】
【书籍评论数量】【书籍常用词汇】【作者撰写图书数量】
【运行环境】 Idea JDK Maven XShell VM虚拟机 Mysql
【技术栈】 springboot vue echarts Hadoop Spark mysql
下载全套