From 5faa69d9601176454f7ac0db53d8a6c91cca7b5c Mon Sep 17 00:00:00 2001 From: py4iohgsw <1971708054@qq.com> Date: Mon, 16 Sep 2024 22:50:07 +0800 Subject: [PATCH] Update README.md --- README.md | 26 ++++++++++++++++++++++++++ 1 file changed, 26 insertions(+) diff --git a/README.md b/README.md index f4a3c94..17d8e4f 100644 --- a/README.md +++ b/README.md @@ -1,2 +1,28 @@ # BliBili_danmu_crawl +本程序利用爬虫B站爬取所需弹幕数据,以搜索关键词“2024巴黎奥运会”,爬取综合排序前300的所有视频弹幕。统计每种弹幕的数量,并输出数量排名前8的弹幕 + +## release + +内含本次所运行使用到的程序 + +- **test_1.py**:爬取一个指定BV号视频的所有弹幕 +- **test_getfor.py**:for循环一条一条爬取综合排序前300的所有视频弹幕 +- **test_getthread.py**:优化--利用线程池并发爬取综合排序前300的所有视频弹幕 +- **数据分析.p**y:将所有.txt文件整合并输出数量排名前8的弹幕到xlsx文件中 +- **mywordcloud.py**:制作出精美的词云图,里面有两种方法,第一种普通,第二种奖杯状 + +## output + +- **弹幕收集按序**:所有视频弹幕.txt的文件夹 +- **wordcloud.jpg**:正常词云图展示 +- **wordcloud_cup.jpg**:奖杯状词云图展示 +- **奖杯.png**:作为掩膜 + +## requirements + +代码中所需的外部依赖库及其版本 + +## 附加题:莎莎和陈梦 + +内部文件命名如上 \ No newline at end of file