You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
py4iohgsw
5faa69d960
|
2 months ago | |
---|---|---|
output | 2 months ago | |
release | 2 months ago | |
附加题:莎莎和陈梦 | 2 months ago | |
README.md | 2 months ago | |
requirements.txt | 2 months ago |
README.md
BliBili_danmu_crawl
本程序利用爬虫B站爬取所需弹幕数据,以搜索关键词“2024巴黎奥运会”,爬取综合排序前300的所有视频弹幕。统计每种弹幕的数量,并输出数量排名前8的弹幕
release
内含本次所运行使用到的程序
- test_1.py:爬取一个指定BV号视频的所有弹幕
- test_getfor.py:for循环一条一条爬取综合排序前300的所有视频弹幕
- test_getthread.py:优化--利用线程池并发爬取综合排序前300的所有视频弹幕
- 数据分析.py:将所有.txt文件整合并输出数量排名前8的弹幕到xlsx文件中
- mywordcloud.py:制作出精美的词云图,里面有两种方法,第一种普通,第二种奖杯状
output
- 弹幕收集按序:所有视频弹幕.txt的文件夹
- wordcloud.jpg:正常词云图展示
- wordcloud_cup.jpg:奖杯状词云图展示
- 奖杯.png:作为掩膜
requirements
代码中所需的外部依赖库及其版本
附加题:莎莎和陈梦
内部文件命名如上