Go to file

ccicnce113424 0686cc1024 feat: optimize performance with multithreading and update documentation		4 months ago
data	feat: use external stop words file and improve text cleaning	4 months ago
src	feat: optimize performance with multithreading and update documentation	4 months ago
tests	feat: implement main program and add manual tests	4 months ago
.envrc	update	4 months ago
.gitignore	chore: initialize project structure and environment	4 months ago
2. 个人编程.md	update	4 months ago
README.md	feat: optimize performance with multithreading and update documentation	4 months ago
REPORT.md	feat: optimize performance with multithreading and update documentation	4 months ago
requirements.txt	chore: initialize project structure and environment	4 months ago
shell.nix	update	4 months ago
项目设计.md	docs: update project design and create task list	4 months ago

README.md

Unescape Escape

大语言模型应用相关视频弹幕分析挖掘

项目简介

本项目旨在爬取B站关于“大语言模型”的视频弹幕，进行数据清洗、分词统计，并生成词云图和Excel报表，以分析用户对LLM技术的关注点和态度。

功能特性

爬虫：支持B站视频搜索、WBI签名认证、弹幕抓取。
存储：使用SQLite数据库持久化存储视频信息和弹幕数据。
分析：使用Jieba分词进行中文分词，统计高频词汇。
可视化：生成精美的词云图。
导出：支持导出分析结果到Excel文件。
并发：支持多线程并发爬取，提升效率。

环境要求

Python 3.8+
依赖库：见 requirements.txt

安装说明

克隆仓库：

git clone <repository_url>
cd LLM-application-video-comment-analysis

安装依赖：
```
pip install -r requirements.txt
```

使用指南

运行主程序：

python src/main.py --keyword "大语言模型" --limit 300 --workers 5

参数说明：

--keyword: 搜索关键词 (默认: "大语言模型")
--limit: 爬取视频数量限制 (默认: 300)
--workers: 并发线程数 (默认: 3)
--output: 结果导出路径 (默认: "data/output.xlsx")
--wordcloud: 词云图保存路径 (默认: "data/wordcloud.png")

项目结构

.
├── data/               # 数据存储目录
│   ├── data.db         # SQLite数据库
│   ├── stopwords.txt   # 停用词表
│   ├── output.xlsx     # 导出结果
│   └── wordcloud.png   # 词云图
├── src/                # 源代码
│   ├── main.py         # 主程序入口
│   ├── crawler.py      # 爬虫模块
│   ├── storage.py      # 存储模块
│   ├── analysis.py     # 分析模块
│   └── visualization.py# 可视化模块
├── tests/              # 测试代码
├── REPORT.md           # 项目报告 (PSP表格)
├── requirements.txt    # 依赖列表
└── README.md           # 项目说明

许可证

MIT License

README.md Unescape Escape

大语言模型应用相关视频弹幕分析挖掘

项目简介

功能特性

环境要求

安装说明

使用指南

项目结构

许可证

README.md

Unescape Escape