You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
|
|
5 days ago | |
|---|---|---|
| data | 5 days ago | |
| src | 5 days ago | |
| tests | 5 days ago | |
| .envrc | 5 days ago | |
| .gitignore | 5 days ago | |
| 2. 个人编程.md | 5 days ago | |
| README.md | 5 days ago | |
| REPORT.md | 5 days ago | |
| requirements.txt | 5 days ago | |
| shell.nix | 5 days ago | |
| 项目设计.md | 5 days ago | |
README.md
大语言模型应用相关视频弹幕分析挖掘
项目简介
本项目旨在爬取B站关于“大语言模型”的视频弹幕,进行数据清洗、分词统计,并生成词云图和Excel报表,以分析用户对LLM技术的关注点和态度。
功能特性
- 爬虫:支持B站视频搜索、WBI签名认证、弹幕抓取。
- 存储:使用SQLite数据库持久化存储视频信息和弹幕数据。
- 分析:使用Jieba分词进行中文分词,统计高频词汇。
- 可视化:生成精美的词云图。
- 导出:支持导出分析结果到Excel文件。
- 并发:支持多线程并发爬取,提升效率。
环境要求
- Python 3.8+
- 依赖库:见
requirements.txt
安装说明
-
克隆仓库:
git clone <repository_url> cd LLM-application-video-comment-analysis -
安装依赖:
pip install -r requirements.txt
使用指南
运行主程序:
python src/main.py --keyword "大语言模型" --limit 300 --workers 5
参数说明:
--keyword: 搜索关键词 (默认: "大语言模型")--limit: 爬取视频数量限制 (默认: 300)--workers: 并发线程数 (默认: 3)--output: 结果导出路径 (默认: "data/output.xlsx")--wordcloud: 词云图保存路径 (默认: "data/wordcloud.png")
项目结构
.
├── data/ # 数据存储目录
│ ├── data.db # SQLite数据库
│ ├── stopwords.txt # 停用词表
│ ├── output.xlsx # 导出结果
│ └── wordcloud.png # 词云图
├── src/ # 源代码
│ ├── main.py # 主程序入口
│ ├── crawler.py # 爬虫模块
│ ├── storage.py # 存储模块
│ ├── analysis.py # 分析模块
│ └── visualization.py# 可视化模块
├── tests/ # 测试代码
├── REPORT.md # 项目报告 (PSP表格)
├── requirements.txt # 依赖列表
└── README.md # 项目说明
许可证
MIT License