You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
bilibili-reptile/README.md

41 lines
1.2 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

## 一.主任务要求
**1.数据获取**
利用爬虫B站爬取所需弹幕数据搜索关键词“2024巴黎奥运会”爬取综合排序前300的所有视频弹幕。
**2.数据统计**
统计AI技术应该方面的每种弹幕数量并输出数量排名前8的弹幕。
将统计的数据利用编程工具或开发包自动写入Excel表中。
**3.数据可视化**
对采集的数据集进行可视化表示,制作词云图,越美观越好。
**4.数据结论**
通过统计数据得出当前B站用户对于2024巴黎奥运会应用AI技术的主流看法。
## 二.附加题
### (1)爬取福州大学的通知、文件系统
地址https://info22.fzu.edu.cn/lm_list.jsp?wbtreeid=1460【要开校园网访问】
包含发布时间,作者,标题以及正文。
可自动翻页(爬虫可以自动对后续页面进行爬取,而不需要我们指定第几页)
指定爬取范围如2020年1月1号 - 2021年9月1号
### (2)爬取B站评论
利用爬虫B站爬取所需弹幕数据搜索关键词“2024巴黎奥运会”爬取综合排序前50的所有视频第一页评论。
## 三.使用技术栈
* Http请求OkHttp Jsoup
* Json解析Gson
* Excel写入EasyExcel
* 词云生成Kumo
* 日志打印Slf4j