系统环境: Linux(CentOS7)
大数据组件: Hadoop, Spark, Zookeeper, Kafka, Hbase
开发工具: Idea + XShell + FileZilla + Mysql
数据采集(python+pycharm): 爬虫豆瓣电影网站数据, 保存为csv文件
数据存储(hdfs/csv): 数据存放到hdfs/csv上
数据分析: SparkCore/SparkSql
数据分析维度: 每年上映电影数, 各演员出演次数, 各类型电影分析, 各类型电影平均评分, 各演员出演电影平均评分,
每年上映电影平均评分, 各评分电影统计
可视化(Springboot/E-charts): 柱状图, 折线图, 饼图, 时间图
项目整体架构

爬虫数据截图:

Spark数据处理部分截图

可视化部分代码截图

数据展示统计图:

下载全套