You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
ccicnce113424 0686cc1024
feat: optimize performance with multithreading and update documentation
5 days ago
data feat: use external stop words file and improve text cleaning 5 days ago
src feat: optimize performance with multithreading and update documentation 5 days ago
tests feat: implement main program and add manual tests 5 days ago
.envrc update 5 days ago
.gitignore chore: initialize project structure and environment 5 days ago
2. 个人编程.md update 5 days ago
README.md feat: optimize performance with multithreading and update documentation 5 days ago
REPORT.md feat: optimize performance with multithreading and update documentation 5 days ago
requirements.txt chore: initialize project structure and environment 5 days ago
shell.nix update 5 days ago
项目设计.md docs: update project design and create task list 5 days ago

README.md

大语言模型应用相关视频弹幕分析挖掘

项目简介

本项目旨在爬取B站关于“大语言模型”的视频弹幕进行数据清洗、分词统计并生成词云图和Excel报表以分析用户对LLM技术的关注点和态度。

功能特性

  • 爬虫支持B站视频搜索、WBI签名认证、弹幕抓取。
  • 存储使用SQLite数据库持久化存储视频信息和弹幕数据。
  • 分析使用Jieba分词进行中文分词统计高频词汇。
  • 可视化:生成精美的词云图。
  • 导出支持导出分析结果到Excel文件。
  • 并发:支持多线程并发爬取,提升效率。

环境要求

  • Python 3.8+
  • 依赖库:见 requirements.txt

安装说明

  1. 克隆仓库:

    git clone <repository_url>
    cd LLM-application-video-comment-analysis
    
  2. 安装依赖:

    pip install -r requirements.txt
    

使用指南

运行主程序:

python src/main.py --keyword "大语言模型" --limit 300 --workers 5

参数说明:

  • --keyword: 搜索关键词 (默认: "大语言模型")
  • --limit: 爬取视频数量限制 (默认: 300)
  • --workers: 并发线程数 (默认: 3)
  • --output: 结果导出路径 (默认: "data/output.xlsx")
  • --wordcloud: 词云图保存路径 (默认: "data/wordcloud.png")

项目结构

.
├── data/               # 数据存储目录
│   ├── data.db         # SQLite数据库
│   ├── stopwords.txt   # 停用词表
│   ├── output.xlsx     # 导出结果
│   └── wordcloud.png   # 词云图
├── src/                # 源代码
│   ├── main.py         # 主程序入口
│   ├── crawler.py      # 爬虫模块
│   ├── storage.py      # 存储模块
│   ├── analysis.py     # 分析模块
│   └── visualization.py# 可视化模块
├── tests/              # 测试代码
├── REPORT.md           # 项目报告 (PSP表格)
├── requirements.txt    # 依赖列表
└── README.md           # 项目说明

许可证

MIT License