You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

46 lines
3.7 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# BliBili_danmu_crawl
- 要求实现**2024巴黎奥运会视频弹幕分析**使用爬虫在B站爬取相关视频弹幕并给出数量排名前8项关于本次赛事应用AI技术的弹幕同时所有数据进行词云可视化分析最后通过统计得出关于2024巴黎奥运会利用AI技术的相关结论。
- **附加题**完成了关键词“莎莎和陈梦”的B站综合排序前300的所有视频弹幕爬取并进行情感分析制作词云图得出相关结论
## 任务背景
2024年第三十三届夏季奥林匹克运动会2024 Summer Olympics一般称为2024巴黎奥运会Paris 2024于2024年7月26日至8月11日在法国巴黎举行此次为法国相隔100年后再次举办夏季奥运会。巴黎成为继英国伦敦后第二个三度举办夏季奥运会的城市前两次分别在1900年及1924年举办。最终美国代表团以40枚金牌、126枚奖牌坐拥奖牌榜首位中国代表团以40枚金牌、91枚奖牌排名第二东道主法国代表团则拿下16枚金牌、64枚奖牌位列第五。本届是现代夏季奥运会历史以来第二次有多于一个国家的代表团美国和中国获得最多且同样数量的金牌。
2024巴黎奥运会这场体育盛宴不仅承载着运动员的汗水与梦想更是工业数字化浪潮的壮阔展示。在这场跨越国界的竞技中数字科技如同隐形的魔术师悄然编织着赛事的每一个细节从幕后到台前从组织策划到观众体验全方位塑造着奥运会的面貌让我们见证了一个科技与体育深度融合的新时代。
## 代码库目录
```
102201613/
├── output/ # 2024巴黎奥运会爬虫相关输出文件夹
│ ├── 弹幕收集按序 # 综合排序前300的所有视频弹幕txt文件夹
│ ├── wordcloud.jpg # 普通词云图
│ ├── wordcloud_cup.png # 奖杯词云图
│ ├── 奖杯.png # 奖杯掩膜图
│ └── 统计结果top_8_withBV号.xlsx # 数量排名前8的弹幕
├── release/ # 2024巴黎奥运会爬虫相关python代码文件夹
│ ├── mywordcloud.py # 制作出精美的词云图,里面有两种方法,第一种普通,第二种奖杯状
│ ├── test_1.py # 爬取一个指定BV号视频的所有弹幕
│ ├── test_getfor.py # for循环一条一条爬取综合排序前300的所有视频弹幕
│ ├── test_getthread.py # 优化利用线程池并发爬取综合排序前300的所有视频弹幕
│ └── 数据分析.py # 将所有.txt文件整合并输出数量排名前8的弹幕到xlsx文件中
├── 附加题:莎莎和陈梦/ # 莎莎和陈梦爬虫相关文件夹
│ ├── output # 输出结果文件夹
│ │ ├── 弹幕情感分析结果图.jpg # 弹幕情感分析结果图
│ │ └── 词云图.jpg # 词云图
│ ├── release # 爬虫相关python代码文件夹
│ │ ├── emotion.py # 情感分析代码
│ │ ├── mywordcloud.py # 制作词云图
│ │ └── test_getthread.py # 线程池爬取弹幕
│ └── 弹幕收集
│ ├── 100个视频弹幕txt
│ ├── merged_text.txt # 将所有弹幕集合在一个txt文件中
│ └── sentiment_analysis_results.csv # 情感分析结果
└── requirements.txt # 相关库版本控制
```