You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.
# BliBili_danmu_crawl
- 要求实现**2024巴黎奥运会视频弹幕分析**, 使用爬虫在B站爬取相关视频弹幕, 并给出数量排名前8项关于本次赛事应用AI技术的弹幕, 同时所有数据进行词云可视化分析, 最后通过统计得出关于2024巴黎奥运会利用AI技术的相关结论。
- **附加题**: 完成了关键词“莎莎和陈梦”的B站综合排序前300的所有视频弹幕爬取, 并进行情感分析, 制作词云图得出相关结论
## 任务背景
2024年第三十三届夏季奥林匹克运动会( 2024 Summer Olympics) , 一般称为2024巴黎奥运会( Paris 2024) , 于2024年7月26日至8月11日在法国巴黎举行, 此次为法国相隔100年后再次举办夏季奥运会。巴黎成为继英国伦敦后, 第二个三度举办夏季奥运会的城市, 前两次分别在1900年及1924年举办。最终, 美国代表团以40枚金牌、126枚奖牌, 坐拥奖牌榜首位; 中国代表团以40枚金牌、91枚奖牌排名第二; 东道主法国代表团则拿下16枚金牌、64枚奖牌位列第五。本届是现代夏季奥运会历史以来, 第二次有多于一个国家的代表团( 美国和中国) , 获得最多且同样数量的金牌。
2024巴黎奥运会, 这场体育盛宴不仅承载着运动员的汗水与梦想, 更是工业数字化浪潮的壮阔展示。在这场跨越国界的竞技中, 数字科技如同隐形的魔术师, 悄然编织着赛事的每一个细节, 从幕后到台前, 从组织策划到观众体验, 全方位塑造着奥运会的面貌, 让我们见证了一个科技与体育深度融合的新时代。
## 代码库目录
```
102201613/
│
├── output/ # 2024巴黎奥运会爬虫相关输出文件夹
│ ├── 弹幕收集按序 # 综合排序前300的所有视频弹幕txt文件夹
│ ├── wordcloud.jpg # 普通词云图
│ ├── wordcloud_cup.png # 奖杯词云图
│ ├── 奖杯.png # 奖杯掩膜图
│ └── 统计结果top_8_withBV号.xlsx # 数量排名前8的弹幕
│
├── release/ # 2024巴黎奥运会爬虫相关python代码文件夹
│ ├── mywordcloud.py # 制作出精美的词云图,里面有两种方法,第一种普通,第二种奖杯状
│ ├── test_1.py # 爬取一个指定BV号视频的所有弹幕
│ ├── test_getfor.py # for循环一条一条爬取综合排序前300的所有视频弹幕
│ ├── test_getthread.py # 优化– 利用线程池并发爬取综合排序前300的所有视频弹幕
│ └── 数据分析.py # 将所有.txt文件整合并输出数量排名前8的弹幕到xlsx文件中
│
├── 附加题:莎莎和陈梦/ # 莎莎和陈梦爬虫相关文件夹
│ ├── output # 输出结果文件夹
│ │ ├── 弹幕情感分析结果图.jpg # 弹幕情感分析结果图
│ │ └── 词云图.jpg # 词云图
│ ├── release # 爬虫相关python代码文件夹
│ │ ├── emotion.py # 情感分析代码
│ │ ├── mywordcloud.py # 制作词云图
│ │ └── test_getthread.py # 线程池爬取弹幕
│ └── 弹幕收集
│ ├── 100个视频弹幕txt
│ ├── merged_text.txt # 将所有弹幕集合在一个txt文件中
│ └── sentiment_analysis_results.csv # 情感分析结果
└── requirements.txt # 相关库版本控制
```