Update README.md

master
pf3x5aziv 3 years ago
parent 7f0c67b2ee
commit 2a0c136deb

@ -125,6 +125,8 @@ sku是京东给商品的编号, 且可以根据sku拼接对应商品的详情页
配置文件, 具体配置查看`Scrapy`的配置, 其中有几个是`scrapy_redis`的配置或本次项目引入的配置, 在此说明:
个人配置:
`PROXY_SERVER_URL`: IP代理商提供的直连IP的API地址;
@ -143,6 +145,8 @@ sku是京东给商品的编号, 且可以根据sku拼接对应商品的详情页
`cookies`: 浏览器访问京东时的`cookies`, 有助于模拟浏览器访问, 降低失败率
scrapy_redis配置:
`DONT_FILTER`: Redis访问不去重, True代表不去重. 不去重的原因是使用代理访问商品详情页时可能会失败, 此时会将URL重新放回Redis的列表开头;
@ -180,6 +184,8 @@ class JdskuspiderItem(scrapy.Item):
item是爬虫数据的容器, 方便我们按对应字段存储数据
#### jdsku.py
商品页爬虫的程序入口, 根据redis数据库对应的列表访问对应URL, 在京东商品详情页面爬取页面元素. 因为使用`scrapy_redis`框架, 也就是`Scrapy`的Redis分布式版本, 因此大部分代码都是在重写方法.

Loading…
Cancel
Save