You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
p5ephxq3m 09eb529c34
Update README.md
5 months ago
__pycache__ 做了最终的修改,把所有改写的都写了 5 months ago
image 做了最终的修改,把所有改写的都写了 5 months ago
videos_ids 做了最终的修改,把所有改写的都写了 5 months ago
成品 做了最终的修改,把所有改写的都写了 5 months ago
.gitignore 111 5 months ago
BClawer.py 做了最终的修改,把所有改写的都写了 5 months ago
README.md Update README.md 5 months ago
addition_1.py 真的最后一次! 5 months ago
addition_2.py 做了最终的修改,把所有改写的都写了 5 months ago
dmk.py 做了最终的修改,把所有改写的都写了 5 months ago
generate.py 做了最终的修改,把所有改写的都写了 5 months ago
keywords.json 做了最终的修改,把所有改写的都写了 5 months ago
requirements.txt 真的最后一次! 5 months ago
stopwords.txt bilibliCrawler 5 months ago
test_BClawer.py 做了最终的修改,把所有改写的都写了 5 months ago
top_danmakus_2024巴黎奥运会.xlsx 做了最终的修改,把所有改写的都写了 5 months ago

README.md

blibliCrawler

免责声明

本仓库的所有内容仅供学习和参考之用,禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本仓库所涉及的爬虫技术仅用于学习和研究,不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本仓库内容而引起的任何法律责任,本仓库不承担任何责任。使用本仓库的内容即表示您同意本免责声明的所有条款和条件。

仓库描述

blibliCrawer是基于python框架的通过关键字搜索相应视频及弹幕的简易爬虫。

该爬虫的特点是利用多线程运行效率十分高,并且留有关键词以及词图云背景的接口等待大家自主进行设计。

如果你觉得本仓库对你而言是方便的话,可以给我打更高的分数。

各文件说明

  1. BClawer.py:存放爬虫类和主函数
  2. dmk.py:存放获取以及修整弹幕有关的函数
  3. generate.py:存放生成词云图有关的函数

上述三个代码文件用于完成B站爬虫作业。

  1. test_BClawer.py:对关键函数进行白盒测试(单元测试)

该代码用于完成要求的单元测试任务,直接运行即可。

  1. addition_1.py:完成附加题1
  2. addition_2.py:完成附加题2

这两个代码用于完成附加作业。

使用方法

创建并激活虚拟环境

# 进入项目根目录
cd blibliCrawler

# 创建虚拟环境
# 我的python版本是3.11.7requirements.txt中的库是基于这个版本的如果是其他python版本可能requirements.txt中的库不兼容自行解决一下。
python -m venv venv

# macos & linux 激活虚拟环境
source venv/bin/activate

# windows 激活虚拟环境
venv\Scripts\activate

如果大家使用pycharm或其他ide创建虚拟环境会更方便。

安装依赖库

pip install -r requirements.txt

启动爬虫程序

记得要先输入自己的Cookie

#项目有默认的参数值可以在BClawer.py中进行修改
python BClawer.py
#也可以在命令行进行修改
python BClawer.py --keyword '巴黎奥运会' --max_result 300 --top_num 8 --width 500 --height 500 -- image_style '537'

启动addition_2

该代码利用了USGS在地震数据采集接口中的数据

https://earthquake.usgs.gov/fdsnws/event/1/query
#注意运行必须在命令行输入
streamlit run addition_2.py
#如果要结束运行请在命令行输入crtl+C