superset大数据可视化展示

搭建(superset)

参考:https://juejin.cn/post/6991730150203195400
个人建议:本人搭建 superset 颇为费力,在此提以下建议:

  1. python 版本建议 3.6.7
  2. 各种操作按照最新文档操作
  3. 大数据可视化图片大部分需要时间,所以数据很多要求有时间。自行考虑搭建需求。

课设展示

  • 介绍
    对四大门户网站信息进行爬取,和队友自行设计 10 张表。进行数据清洗后用 sql 语句写入数据库,最后对数据进行聚合展示。

文章发布时间(git)展示

在 2022 年 1 月 - 2023 年 1 月,统计每个时间段发布文章数目,参考 github 样式进行总体展示。
可以清晰简单的看到每个时间段发布的文章数目

网站信息展示

网站文章数目饼图

根据数据库中存储的各网站板块的类型,显示每个网站爬取的文章数目和文章百分比。

网站地区文章数目图

根据四大门户网站总部公司的地址,在中国地图上显示具体位置和对应爬取文章数目总数。

四大门户网站信息展示

腾讯网各板块文章数展示

对腾讯网爬取板块的文章数用柱状图展示文章数目爬取多少情况。

新浪网各板块文章数展示

对新浪网爬取板块的文章数用柱状图展示文章数目爬取多少情况。

搜狐网各板块文章数展示

对搜狐网爬取板块的文章数用柱状图展示文章数目爬取多少情况。

网易网各板块文章数展示

对网易网爬取板块的文章数用柱状图展示文章数目爬取多少情况。

作者来源数量展示

根据作者信息表,对四个门户网站的作者数量使用矩形分布图进行展示。

种类信息展示

根据种类信息表,对每个板块的文章数量使用旭日图进行展示,显示文章数量和所占百分比。

作者文章 top50 展示

根据作者信息表,展示文章总量排名前 50 的作者的名字。

热度 top20 排名展示

参考热度信息表,根据评论数对文章进行热度排名,选取前 20 个火爆的文章。

关键字信息展示

根据关键字信息表,对在所有文章中出现次数排名前 20 的关键字使用旭日图进行展示。

访问量 访客