|
|
|
@ -1,28 +1,46 @@
|
|
|
|
|
# BliBili_danmu_crawl
|
|
|
|
|
|
|
|
|
|
本程序利用爬虫B站爬取所需弹幕数据,以搜索关键词“2024巴黎奥运会”,爬取综合排序前300的所有视频弹幕。统计每种弹幕的数量,并输出数量排名前8的弹幕
|
|
|
|
|
- 要求实现**2024巴黎奥运会视频弹幕分析**,使用爬虫在B站爬取相关视频弹幕,并给出数量排名前8项关于本次赛事应用AI技术的弹幕,同时所有数据进行词云可视化分析,最后通过统计得出关于2024巴黎奥运会利用AI技术的相关结论。
|
|
|
|
|
- **附加题**:完成了关键词“莎莎和陈梦”的B站综合排序前300的所有视频弹幕爬取,并进行情感分析,制作词云图得出相关结论
|
|
|
|
|
|
|
|
|
|
## 任务背景
|
|
|
|
|
|
|
|
|
|
2024年第三十三届夏季奥林匹克运动会(2024 Summer Olympics),一般称为2024巴黎奥运会(Paris 2024),于2024年7月26日至8月11日在法国巴黎举行,此次为法国相隔100年后再次举办夏季奥运会。巴黎成为继英国伦敦后,第二个三度举办夏季奥运会的城市,前两次分别在1900年及1924年举办。最终,美国代表团以40枚金牌、126枚奖牌,坐拥奖牌榜首位;中国代表团以40枚金牌、91枚奖牌排名第二;东道主法国代表团则拿下16枚金牌、64枚奖牌位列第五。本届是现代夏季奥运会历史以来,第二次有多于一个国家的代表团(美国和中国),获得最多且同样数量的金牌。
|
|
|
|
|
|
|
|
|
|
2024巴黎奥运会,这场体育盛宴不仅承载着运动员的汗水与梦想,更是工业数字化浪潮的壮阔展示。在这场跨越国界的竞技中,数字科技如同隐形的魔术师,悄然编织着赛事的每一个细节,从幕后到台前,从组织策划到观众体验,全方位塑造着奥运会的面貌,让我们见证了一个科技与体育深度融合的新时代。
|
|
|
|
|
|
|
|
|
|
## 代码库目录
|
|
|
|
|
|
|
|
|
|
```
|
|
|
|
|
102201613/
|
|
|
|
|
│
|
|
|
|
|
├── output/ 2024巴黎奥运会爬虫相关输出文件夹
|
|
|
|
|
│ ├── 弹幕收集按序 综合排序前300的所有视频弹幕txt文件夹
|
|
|
|
|
│ ├── wordcloud.jpg 普通词云图
|
|
|
|
|
│ ├── wordcloud_cup.png 奖杯词云图
|
|
|
|
|
│ ├── 奖杯.png 奖杯掩膜图
|
|
|
|
|
│ └── 统计结果top_8_withBV号.xlsx 数量排名前8的弹幕
|
|
|
|
|
│
|
|
|
|
|
├── release/ 2024巴黎奥运会爬虫相关python代码文件夹
|
|
|
|
|
│ ├── mywordcloud.py 制作出精美的词云图,里面有两种方法,第一种普通,第二种奖杯状
|
|
|
|
|
│ ├── test_1.py 爬取一个指定BV号视频的所有弹幕
|
|
|
|
|
│ ├── test_getfor.py for循环一条一条爬取综合排序前300的所有视频弹幕
|
|
|
|
|
│ ├── test_getthread.py 优化–利用线程池并发爬取综合排序前300的所有视频弹幕
|
|
|
|
|
│ └──数据分析.py 将所有.txt文件整合并输出数量排名前8的弹幕到xlsx文件中
|
|
|
|
|
│
|
|
|
|
|
├── 附加题:莎莎和陈梦/ 莎莎和陈梦爬虫相关文件夹
|
|
|
|
|
│ ├── output 输出结果文件夹
|
|
|
|
|
│ │ ├── 弹幕情感分析结果图.jpg
|
|
|
|
|
│ │ └──词云图.jpg
|
|
|
|
|
│ ├── release 爬虫相关python代码文件夹
|
|
|
|
|
│ │ ├── emotion.py 情感分析代码
|
|
|
|
|
│ │ ├── mywordcloud.py 制作词云图
|
|
|
|
|
│ │ └── test_getthread.py 线程池爬取弹幕
|
|
|
|
|
│ └── 弹幕收集
|
|
|
|
|
│ │ ├── 100个视频弹幕txt
|
|
|
|
|
│ │ ├── merged_text.txt 将所有弹幕集合在一个txt文件中
|
|
|
|
|
│ │ └── sentiment_analysis_results.csv 情感分析结果
|
|
|
|
|
│
|
|
|
|
|
└── requirements.txt 相关库版本控制
|
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
## release
|
|
|
|
|
|
|
|
|
|
内含本次所运行使用到的程序
|
|
|
|
|
|
|
|
|
|
- **test_1.py**:爬取一个指定BV号视频的所有弹幕
|
|
|
|
|
- **test_getfor.py**:for循环一条一条爬取综合排序前300的所有视频弹幕
|
|
|
|
|
- **test_getthread.py**:优化--利用线程池并发爬取综合排序前300的所有视频弹幕
|
|
|
|
|
- **数据分析.p**y:将所有.txt文件整合并输出数量排名前8的弹幕到xlsx文件中
|
|
|
|
|
- **mywordcloud.py**:制作出精美的词云图,里面有两种方法,第一种普通,第二种奖杯状
|
|
|
|
|
|
|
|
|
|
## output
|
|
|
|
|
|
|
|
|
|
- **弹幕收集按序**:所有视频弹幕.txt的文件夹
|
|
|
|
|
- **wordcloud.jpg**:正常词云图展示
|
|
|
|
|
- **wordcloud_cup.jpg**:奖杯状词云图展示
|
|
|
|
|
- **奖杯.png**:作为掩膜
|
|
|
|
|
|
|
|
|
|
## requirements
|
|
|
|
|
|
|
|
|
|
代码中所需的外部依赖库及其版本
|
|
|
|
|
|
|
|
|
|
## 附加题:莎莎和陈梦
|
|
|
|
|
|
|
|
|
|
内部文件命名类似如上
|