diff --git a/doc/编译说明.docx b/doc/编译说明.docx deleted file mode 100644 index 27c7fab..0000000 Binary files a/doc/编译说明.docx and /dev/null differ diff --git a/doc/编译说明手册.md b/doc/编译说明手册.md index f8334ff..a7fadd1 100644 --- a/doc/编译说明手册.md +++ b/doc/编译说明手册.md @@ -1,3 +1,26 @@ +## 编译说明手册 + +### 环境要求 + +1. 操作系统:`Windows 10` + +2. 数据库版本:`MySQL Ver 8.0.21 for Win64 on x86_64` + +3. Python 版本:`Python 3.7.x` + +4. 依赖的Python 类库版本见 `requirements.txt` + +5. 浏览器:`Google Chrome 91.0.4472.124 (64位)` + +6. ChromeDriver 版本: `91.0.4472.101` +7. PHP 版本:`php 7.4.9` + + + +### 相关模块编译运行 + +记 zjtj 目录的绝对路径为 ~ + #### 本地数据库部署 需要建立两个数据库:`computer_accessories`存放电脑配件信息,`webData`存放反馈和tips记录。 @@ -38,4 +61,40 @@ source ~/dbData/computer_accessories.sql; 配置好了就可以从`phpStorm`中的`home.html`进入网站主页,网站就运行起来了。 -![image](https://tva2.sinaimg.cn/mw690/007EYOWmgy1gsf5ky5ut8j30wi07o761.jpg) \ No newline at end of file +![image](https://tva2.sinaimg.cn/mw690/007EYOWmgy1gsf5ky5ut8j30wi07o761.jpg) + +#### 爬虫相关模块 + +**建议不要跑这个模块,直接部署本地数据库** + +##### 京东爬虫 + +(1)进入 `~/src/backend/JDSpiders/Spider` + +(2)运行 `mysql -u root -p`,输入密码进入MySQL 命令行,输入命令 `source createDB.sql` 建立数据库 + +(3)运行命令 `python JDSpider.py` 进行数据爬取和数据清洗(我集成到一起了) + +(4) **注意事项:** + +**①** **由于京东的网页结构会经常变动,所以该爬虫在运行的时候不一定能成功运行** + +**②** **爬取参数不能调小了,否则会被京东封 IP** + +**③** **由于近段时间京东检测策略变严,若跳出登录界面,则表明该IP被京东制裁了。解决方法是手动登录然后把链接里那串 pvid=xxxxxxxxxx 给输进去。如果按这样做还不成功就是京东又改策略了,我也没办法。。。** + +**④** **建议在晚上12:00至凌晨5:00间运行,这段时间京东服务器压力小且网络流畅,爬数据不容易被检测到,出现丢包的概率也小。** + +**⑤** **如果网络环境不好,爬到的东西会有部分数据缺失(比如评论数和好评率),但不会影响设备参数的爬取** + + + +##### 配置单爬虫 + +(1)进入目录 `~/src/backend/Computer_Configurations` + +(2)运行 `config_list_spider.py` 可从 http://zj.zol.com.cn/top_diy.html 上爬取已有配置单数据 + +(3)运行 `data_processing.py` 可做数据清洗并得出各配件大概价格比例 + +(4)由此确定推荐算法中的各初始比例参数 \ No newline at end of file