You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Go to file
p8wz2hgu4 1ae86d85c7
Update README.md
2 months ago
.mvn/wrapper fix: 附加题添加 2 months ago
src fix: 附加题添加 2 months ago
.gitignore Initial commit 3 months ago
README.md Update README.md 2 months ago
news.txt fix: 附加题添加 2 months ago
pom.xml fix: 附加题添加 2 months ago
wordCloud.png fix: 附加题添加 2 months ago
wordCount.xlsx fix: 附加题添加 2 months ago

README.md

一.主任务要求

1.数据获取

利用爬虫B站爬取所需弹幕数据搜索关键词“2024巴黎奥运会”爬取综合排序前300的所有视频弹幕。

2.数据统计

统计AI技术应该方面的每种弹幕数量并输出数量排名前8的弹幕。 将统计的数据利用编程工具或开发包自动写入Excel表中。

3.数据可视化

对采集的数据集进行可视化表示,制作词云图,越美观越好。

4.数据结论

通过统计数据得出当前B站用户对于2024巴黎奥运会应用AI技术的主流看法。

二.附加题

(1)爬取福州大学的通知、文件系统

地址:https://info22.fzu.edu.cn/lm_list.jsp?wbtreeid=1460【要开校园网访问】

包含发布时间,作者,标题以及正文。

可自动翻页(爬虫可以自动对后续页面进行爬取,而不需要我们指定第几页)

指定爬取范围如2020年1月1号 - 2021年9月1号

(2)爬取B站评论

利用爬虫B站爬取所需弹幕数据搜索关键词“2024巴黎奥运会”爬取综合排序前50的所有视频第一页评论。

三.使用技术栈

  • Http请求OkHttp Jsoup
  • Json解析Gson
  • Excel写入EasyExcel
  • 词云生成Kumo
  • 日志打印Slf4j