You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
|
5 months ago | |
---|---|---|
__pycache__ | 5 months ago | |
image | 5 months ago | |
videos_ids | 5 months ago | |
成品 | 5 months ago | |
.gitignore | 5 months ago | |
BClawer.py | 5 months ago | |
README.md | 5 months ago | |
addition_1.py | 5 months ago | |
addition_2.py | 5 months ago | |
dmk.py | 5 months ago | |
generate.py | 5 months ago | |
keywords.json | 5 months ago | |
requirements.txt | 5 months ago | |
stopwords.txt | 5 months ago | |
test_BClawer.py | 5 months ago | |
top_danmakus_2024巴黎奥运会.xlsx | 5 months ago |
README.md
blibliCrawler
免责声明
本仓库的所有内容仅供学习和参考之用,禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本仓库所涉及的爬虫技术仅用于学习和研究,不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本仓库内容而引起的任何法律责任,本仓库不承担任何责任。使用本仓库的内容即表示您同意本免责声明的所有条款和条件。
仓库描述
blibliCrawer是基于python框架的通过关键字搜索相应视频及弹幕的简易爬虫。
该爬虫的特点是利用多线程运行效率十分高,并且留有关键词以及词图云背景的接口等待大家自主进行设计。
如果你觉得本仓库对你而言是方便的话,可以给我打更高的分数。
各文件说明
- BClawer.py:存放爬虫类和主函数
- dmk.py:存放获取以及修整弹幕有关的函数
- generate.py:存放生成词云图有关的函数
上述三个代码文件用于完成B站爬虫作业。
- test_BClawer.py:对关键函数进行白盒测试(单元测试)
该代码用于完成要求的单元测试任务,直接运行即可。
- addition_1.py:完成附加题1
- addition_2.py:完成附加题2
这两个代码用于完成附加作业。
使用方法
创建并激活虚拟环境
# 进入项目根目录
cd blibliCrawler
# 创建虚拟环境
# 我的python版本是:3.11.7,requirements.txt中的库是基于这个版本的,如果是其他python版本,可能requirements.txt中的库不兼容,自行解决一下。
python -m venv venv
# macos & linux 激活虚拟环境
source venv/bin/activate
# windows 激活虚拟环境
venv\Scripts\activate
如果大家使用pycharm或其他ide,创建虚拟环境会更方便。
安装依赖库
pip install -r requirements.txt
启动爬虫程序
(记得要先输入自己的Cookie)
#项目有默认的参数值,可以在BClawer.py中进行修改
python BClawer.py
#也可以在命令行进行修改
python BClawer.py --keyword '巴黎奥运会' --max_result 300 --top_num 8 --width 500 --height 500 -- image_style '537'
启动addition_2
该代码利用了USGS在地震数据采集接口中的数据
https://earthquake.usgs.gov/fdsnws/event/1/query
#注意运行必须在命令行输入
streamlit run addition_2.py
#如果要结束运行,请在命令行输入crtl+C