|
|
|
@ -10,7 +10,8 @@
|
|
|
|
|
*[启动爬虫](#启动爬虫)
|
|
|
|
|
|
|
|
|
|
###下载安装
|
|
|
|
|
pip install -r requirements.txt
|
|
|
|
|
1、安装redis
|
|
|
|
|
2、安装依赖库,pip install -r requirements.txt
|
|
|
|
|
|
|
|
|
|
###创建一个分布式爬虫
|
|
|
|
|
scrapy startproject XXX(项目名)
|
|
|
|
@ -22,7 +23,8 @@ scrapy genspider xxx(爬虫名) www.baidu.com(域名-示例)
|
|
|
|
|
2、根据任务需求更改items.py,middlewares.py,pipelines.py文件
|
|
|
|
|
|
|
|
|
|
###启动爬虫
|
|
|
|
|
1、运行"获取所有视频的url.py"文件将视频的url加入到redis中
|
|
|
|
|
2、打开命令行,输入 scrapy runspider bilibili.py 开始爬取视频
|
|
|
|
|
1、启动redis服务,在命令行输入 redis-server
|
|
|
|
|
2、运行"获取所有视频的url.py"文件将视频的url加入到redis中
|
|
|
|
|
3、运行bilibili.py文件,你需要找到该文件并在命令行中输入 scrapy runspider bilibili.py(可以打开多个脚本任务)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|