You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
|
|
|
|
## 一.主任务要求
|
|
|
|
|
**1.数据获取**
|
|
|
|
|
|
|
|
|
|
利用爬虫B站爬取所需弹幕数据,搜索关键词“2024巴黎奥运会”,爬取综合排序前300的所有视频弹幕。
|
|
|
|
|
|
|
|
|
|
**2.数据统计**
|
|
|
|
|
|
|
|
|
|
统计AI技术应该方面的每种弹幕数量,并输出数量排名前8的弹幕。
|
|
|
|
|
将统计的数据利用编程工具或开发包自动写入Excel表中。
|
|
|
|
|
|
|
|
|
|
**3.数据可视化**
|
|
|
|
|
|
|
|
|
|
对采集的数据集进行可视化表示,制作词云图,越美观越好。
|
|
|
|
|
|
|
|
|
|
**4.数据结论**
|
|
|
|
|
|
|
|
|
|
通过统计数据得出当前B站用户对于2024巴黎奥运会应用AI技术的主流看法。
|
|
|
|
|
|
|
|
|
|
## 二.附加题
|
|
|
|
|
|
|
|
|
|
爬取福州大学的通知、文件系统
|
|
|
|
|
|
|
|
|
|
地址:https://info22.fzu.edu.cn/lm_list.jsp?wbtreeid=1460【要开校园网访问】
|
|
|
|
|
|
|
|
|
|
包含发布时间,作者,标题以及正文。
|
|
|
|
|
|
|
|
|
|
可自动翻页(爬虫可以自动对后续页面进行爬取,而不需要我们指定第几页)
|
|
|
|
|
|
|
|
|
|
指定爬取范围:如2020年1月1号 - 2021年9月1号
|
|
|
|
|
|
|
|
|
|
## 三.使用技术栈
|
|
|
|
|
|
|
|
|
|
* Http请求:OkHttp Jsoup
|
|
|
|
|
* Json解析:Gson
|
|
|
|
|
* Excel写入:EasyExcel
|
|
|
|
|
* 词云生成:Kumo
|
|
|
|
|
* 日志打印:Slf4j
|
|
|
|
|
|