Update README.md

3 years ago · 2a0c136deb
parent 7f0c67b2ee
commit 2a0c136deb
1 changed files with 221 additions and 215 deletions
--- a/README.md
+++ b/README.md
@ -125,6 +125,8 @@ sku是京东给商品的编号, 且可以根据sku拼接对应商品的详情页

 配置文件, 具体配置查看`Scrapy`的配置, 其中有几个是`scrapy_redis`的配置或本次项目引入的配置, 在此说明:

+
+
 个人配置:

 `PROXY_SERVER_URL`: IP代理商提供的直连IP的API地址;
@ -143,6 +145,8 @@ sku是京东给商品的编号, 且可以根据sku拼接对应商品的详情页

 `cookies`: 浏览器访问京东时的`cookies`, 有助于模拟浏览器访问, 降低失败率

+
+
 scrapy_redis配置:

 `DONT_FILTER`: Redis访问不去重, True代表不去重. 不去重的原因是使用代理访问商品详情页时可能会失败, 此时会将URL重新放回Redis的列表开头;
@ -180,6 +184,8 @@ class JdskuspiderItem(scrapy.Item):

 item是爬虫数据的容器, 方便我们按对应字段存储数据

+
+
 #### jdsku.py

 商品页爬虫的程序入口, 根据redis数据库对应的列表访问对应URL, 在京东商品详情页面爬取页面元素. 因为使用`scrapy_redis`框架, 也就是`Scrapy`的Redis分布式版本, 因此大部分代码都是在重写方法.