删除了一些饼

master
wkyuu 3 years ago
parent 84b8de58b2
commit bbf66a01b4

@ -4,14 +4,9 @@ selenium + redis + 分布式 + xpath + etree + 可视化
任务爬取京东网站上在售的各类牛奶品类的商品名称简介价格相关评论区相关。并给出相应的价格波动趋势精选好评用python的可视化展示。计划任务自动爬取。 任务爬取京东网站上在售的各类牛奶品类的商品名称简介价格相关评论区相关。并给出相应的价格波动趋势精选好评用python的可视化展示。计划任务自动爬取。
![image-20220410095017421](README [Image]/image-20220410095017421.png)
![image-20220410095022817](README [Image]/image-20220410095022817.png)
## TODO ## TODO
- [x] 初始化 selenium 框架,编写好相应的爬取规则,初步实现小规模爬取内容 - [x] 初始化 selenium 框架,编写好相应的爬取规则,初步实现小规模爬取内容
- [ ] 考虑user-agentip池cookietoken实现更大规模爬取内容
- [ ] 从历史价格网页爬取历史价格,比对,给出价格波动趋势 - [ ] 从历史价格网页爬取历史价格,比对,给出价格波动趋势
- [x] 加入Redis分布式设计 - [x] 加入Redis分布式设计
- [ ] 数据可视化 - [ ] 数据可视化
@ -31,7 +26,6 @@ selenium + redis + 分布式 + xpath + etree + 可视化
> > > >
> > milkSpider.py 主文件,配置爬取设置,自动化等 > > milkSpider.py 主文件,配置爬取设置,自动化等
> > > >
> > items.py 暂定
### selenium ### selenium
@ -86,8 +80,8 @@ git pull https://bdgit.educoder.net/mf942lkca/milkSpider.git
git remote -v # 查看远程仓库信息 git remote -v # 查看远程仓库信息
touch .gitignore # 创建忽略上传控制文件 touch .gitignore # 创建忽略上传控制文件
git commit -m "update" # 先添加一个commit
git add *.py # 添加要push的本地内容到一个本地临时仓库 git add *.py # 添加要push的本地内容到一个本地临时仓库
git commit -m "update" # 先添加一个commit
git push -u origin master # push, 出错就 -f(注意会造成不可回避的损失) git push -u origin master # push, 出错就 -f(注意会造成不可回避的损失)
``` ```
@ -212,4 +206,6 @@ redisconn = redis.Redis(host = '127.0.0.1', port = '6379', password = 'x', db =
13[https://blog.csdn.net/fox64194167/article/details/80542717](https://blog.csdn.net/fox64194167/article/details/80542717) 13[https://blog.csdn.net/fox64194167/article/details/80542717](https://blog.csdn.net/fox64194167/article/details/80542717)
14 14[Selenium添加Cookie的方法](https://cloud.tencent.com/developer/article/1616175)
15
Loading…
Cancel
Save