|
|
|
@ -125,6 +125,8 @@ sku是京东给商品的编号, 且可以根据sku拼接对应商品的详情页
|
|
|
|
|
|
|
|
|
|
配置文件, 具体配置查看`Scrapy`的配置, 其中有几个是`scrapy_redis`的配置或本次项目引入的配置, 在此说明:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
个人配置:
|
|
|
|
|
|
|
|
|
|
`PROXY_SERVER_URL`: IP代理商提供的直连IP的API地址;
|
|
|
|
@ -143,6 +145,8 @@ sku是京东给商品的编号, 且可以根据sku拼接对应商品的详情页
|
|
|
|
|
|
|
|
|
|
`cookies`: 浏览器访问京东时的`cookies`, 有助于模拟浏览器访问, 降低失败率
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
scrapy_redis配置:
|
|
|
|
|
|
|
|
|
|
`DONT_FILTER`: Redis访问不去重, True代表不去重. 不去重的原因是使用代理访问商品详情页时可能会失败, 此时会将URL重新放回Redis的列表开头;
|
|
|
|
@ -180,6 +184,8 @@ class JdskuspiderItem(scrapy.Item):
|
|
|
|
|
|
|
|
|
|
item是爬虫数据的容器, 方便我们按对应字段存储数据
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
#### jdsku.py
|
|
|
|
|
|
|
|
|
|
商品页爬虫的程序入口, 根据redis数据库对应的列表访问对应URL, 在京东商品详情页面爬取页面元素. 因为使用`scrapy_redis`框架, 也就是`Scrapy`的Redis分布式版本, 因此大部分代码都是在重写方法.
|
|
|
|
|