You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
李玲 a03aeb6bb8
环境依赖
2 months ago
output 第二次提交,修改一下图片名 2 months ago
release 第一次提交作业 2 months ago
附加题:莎莎和陈梦 Update test_getthread.py 2 months ago
README.md Update README.md 2 months ago
requirements.txt 第一次提交作业 2 months ago

README.md

BliBili_danmu_crawl

本程序利用爬虫B站爬取所需弹幕数据以搜索关键词“2024巴黎奥运会”爬取综合排序前300的所有视频弹幕。统计每种弹幕的数量并输出数量排名前8的弹幕

release

内含本次所运行使用到的程序

  • test_1.py:爬取一个指定BV号视频的所有弹幕
  • test_getfor.pyfor循环一条一条爬取综合排序前300的所有视频弹幕
  • test_getthread.py:优化--利用线程池并发爬取综合排序前300的所有视频弹幕
  • 数据分析.py将所有.txt文件整合并输出数量排名前8的弹幕到xlsx文件中
  • mywordcloud.py:制作出精美的词云图,里面有两种方法,第一种普通,第二种奖杯状

output

  • 弹幕收集按序:所有视频弹幕.txt的文件夹
  • wordcloud.jpg:正常词云图展示
  • wordcloud_cup.jpg:奖杯状词云图展示
  • 奖杯.png:作为掩膜

requirements

代码中所需的外部依赖库及其版本

附加题:莎莎和陈梦

内部文件命名类似如上