|
|
|
@ -1,3 +1,26 @@
|
|
|
|
|
## 编译说明手册
|
|
|
|
|
|
|
|
|
|
### 环境要求
|
|
|
|
|
|
|
|
|
|
1. 操作系统:`Windows 10`
|
|
|
|
|
|
|
|
|
|
2. 数据库版本:`MySQL Ver 8.0.21 for Win64 on x86_64`
|
|
|
|
|
|
|
|
|
|
3. Python 版本:`Python 3.7.x`
|
|
|
|
|
|
|
|
|
|
4. 依赖的Python 类库版本见 `requirements.txt`
|
|
|
|
|
|
|
|
|
|
5. 浏览器:`Google Chrome 91.0.4472.124 (64位)`
|
|
|
|
|
|
|
|
|
|
6. ChromeDriver 版本: `91.0.4472.101`
|
|
|
|
|
7. PHP 版本:`php 7.4.9`
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### 相关模块编译运行
|
|
|
|
|
|
|
|
|
|
记 zjtj 目录的绝对路径为 ~
|
|
|
|
|
|
|
|
|
|
#### 本地数据库部署
|
|
|
|
|
|
|
|
|
|
需要建立两个数据库:`computer_accessories`存放电脑配件信息,`webData`存放反馈和tips记录。
|
|
|
|
@ -38,4 +61,40 @@ source ~/dbData/computer_accessories.sql;
|
|
|
|
|
|
|
|
|
|
配置好了就可以从`phpStorm`中的`home.html`进入网站主页,网站就运行起来了。
|
|
|
|
|
|
|
|
|
|
![image](https://tva2.sinaimg.cn/mw690/007EYOWmgy1gsf5ky5ut8j30wi07o761.jpg)
|
|
|
|
|
![image](https://tva2.sinaimg.cn/mw690/007EYOWmgy1gsf5ky5ut8j30wi07o761.jpg)
|
|
|
|
|
|
|
|
|
|
#### 爬虫相关模块
|
|
|
|
|
|
|
|
|
|
**建议不要跑这个模块,直接部署本地数据库**
|
|
|
|
|
|
|
|
|
|
##### 京东爬虫
|
|
|
|
|
|
|
|
|
|
(1)进入 `~/src/backend/JDSpiders/Spider`
|
|
|
|
|
|
|
|
|
|
(2)运行 `mysql -u root -p`,输入密码进入MySQL 命令行,输入命令 `source createDB.sql` 建立数据库
|
|
|
|
|
|
|
|
|
|
(3)运行命令 `python JDSpider.py` 进行数据爬取和数据清洗(我集成到一起了)
|
|
|
|
|
|
|
|
|
|
(4) **注意事项:**
|
|
|
|
|
|
|
|
|
|
**①** **由于京东的网页结构会经常变动,所以该爬虫在运行的时候不一定能成功运行**
|
|
|
|
|
|
|
|
|
|
**②** **爬取参数不能调小了,否则会被京东封 IP**
|
|
|
|
|
|
|
|
|
|
**③** **由于近段时间京东检测策略变严,若跳出登录界面,则表明该IP被京东制裁了。解决方法是手动登录然后把链接里那串 pvid=xxxxxxxxxx 给输进去。如果按这样做还不成功就是京东又改策略了,我也没办法。。。**
|
|
|
|
|
|
|
|
|
|
**④** **建议在晚上12:00至凌晨5:00间运行,这段时间京东服务器压力小且网络流畅,爬数据不容易被检测到,出现丢包的概率也小。**
|
|
|
|
|
|
|
|
|
|
**⑤** **如果网络环境不好,爬到的东西会有部分数据缺失(比如评论数和好评率),但不会影响设备参数的爬取**
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
##### 配置单爬虫
|
|
|
|
|
|
|
|
|
|
(1)进入目录 `~/src/backend/Computer_Configurations`
|
|
|
|
|
|
|
|
|
|
(2)运行 `config_list_spider.py` 可从 http://zj.zol.com.cn/top_diy.html 上爬取已有配置单数据
|
|
|
|
|
|
|
|
|
|
(3)运行 `data_processing.py` 可做数据清洗并得出各配件大概价格比例
|
|
|
|
|
|
|
|
|
|
(4)由此确定推荐算法中的各初始比例参数
|