|
|
@ -4,14 +4,9 @@ selenium + redis + 分布式 + xpath + etree + 可视化
|
|
|
|
|
|
|
|
|
|
|
|
任务:爬取京东网站上在售的各类牛奶品类的商品名称,简介,价格相关,评论区相关。并给出相应的价格波动趋势,精选好评,用python的可视化展示。计划任务自动爬取。
|
|
|
|
任务:爬取京东网站上在售的各类牛奶品类的商品名称,简介,价格相关,评论区相关。并给出相应的价格波动趋势,精选好评,用python的可视化展示。计划任务自动爬取。
|
|
|
|
|
|
|
|
|
|
|
|
![image-20220410095017421](README [Image]/image-20220410095017421.png)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
![image-20220410095022817](README [Image]/image-20220410095022817.png)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## TODO
|
|
|
|
## TODO
|
|
|
|
|
|
|
|
|
|
|
|
- [x] 初始化 selenium 框架,编写好相应的爬取规则,初步实现小规模爬取内容
|
|
|
|
- [x] 初始化 selenium 框架,编写好相应的爬取规则,初步实现小规模爬取内容
|
|
|
|
- [ ] 考虑user-agent,ip池,cookie,token,实现更大规模爬取内容
|
|
|
|
|
|
|
|
- [ ] 从历史价格网页爬取历史价格,比对,给出价格波动趋势
|
|
|
|
- [ ] 从历史价格网页爬取历史价格,比对,给出价格波动趋势
|
|
|
|
- [x] 加入Redis分布式设计
|
|
|
|
- [x] 加入Redis分布式设计
|
|
|
|
- [ ] 数据可视化
|
|
|
|
- [ ] 数据可视化
|
|
|
@ -31,7 +26,6 @@ selenium + redis + 分布式 + xpath + etree + 可视化
|
|
|
|
> >
|
|
|
|
> >
|
|
|
|
> > milkSpider.py 主文件,配置爬取设置,自动化等
|
|
|
|
> > milkSpider.py 主文件,配置爬取设置,自动化等
|
|
|
|
> >
|
|
|
|
> >
|
|
|
|
> > items.py 暂定
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### selenium
|
|
|
|
### selenium
|
|
|
|
|
|
|
|
|
|
|
@ -86,8 +80,8 @@ git pull https://bdgit.educoder.net/mf942lkca/milkSpider.git
|
|
|
|
git remote -v # 查看远程仓库信息
|
|
|
|
git remote -v # 查看远程仓库信息
|
|
|
|
touch .gitignore # 创建忽略上传控制文件
|
|
|
|
touch .gitignore # 创建忽略上传控制文件
|
|
|
|
|
|
|
|
|
|
|
|
git commit -m "update" # 先添加一个commit
|
|
|
|
|
|
|
|
git add *.py # 添加要push的本地内容到一个本地临时仓库
|
|
|
|
git add *.py # 添加要push的本地内容到一个本地临时仓库
|
|
|
|
|
|
|
|
git commit -m "update" # 先添加一个commit
|
|
|
|
git push -u origin master # push, 出错就 -f(注意会造成不可回避的损失)
|
|
|
|
git push -u origin master # push, 出错就 -f(注意会造成不可回避的损失)
|
|
|
|
```
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
|
@ -212,4 +206,6 @@ redisconn = redis.Redis(host = '127.0.0.1', port = '6379', password = 'x', db =
|
|
|
|
|
|
|
|
|
|
|
|
13,[https://blog.csdn.net/fox64194167/article/details/80542717](https://blog.csdn.net/fox64194167/article/details/80542717)
|
|
|
|
13,[https://blog.csdn.net/fox64194167/article/details/80542717](https://blog.csdn.net/fox64194167/article/details/80542717)
|
|
|
|
|
|
|
|
|
|
|
|
14,
|
|
|
|
14,[Selenium:添加Cookie的方法](https://cloud.tencent.com/developer/article/1616175)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
15,
|