3.1 KiB
编译说明手册
环境要求
-
操作系统:
Windows 10
-
数据库版本:
MySQL Ver 8.0.21 for Win64 on x86_64
-
Python 版本:
Python 3.7.x
-
依赖的Python 类库版本见
requirements.txt
-
浏览器:
Google Chrome 91.0.4472.124 (64位)
-
ChromeDriver 版本:
91.0.4472.101
-
PHP 版本:
php 7.4.9
相关模块编译运行
记 zjtj 目录的绝对路径为 ~
本地数据库部署
需要建立两个数据库:computer_accessories
存放电脑配件信息,webData
存放反馈和tips记录。
先使用mysql -u root -p
进入sql命令行界面,在该界面下进行数据库部署:
create database computer_accessories;
use computer_accessories;
source ~/dbData/computer_accessories.sql;
create database webData;
use webData;
source ~/dbData/computer_accessories.sql;
设置数据库连接
在项目src
文件夹下的dbConfig.json
文件是数据库连接配置文件,修改其中的主机名、用户名和密码来正常连接数据库。
{
"hostname": "192.168.136.129",
"username" : "root",
"password" : "1213800"
}
运行项目
首先下载好php
,本项目使用的是php 7.4.9
,建议下载软件phpStorm
,进入软件后设置好CLI Interpreter
路径(以下仅供参考):
配置好了就可以从phpStorm
中的home.html
进入网站主页,网站就运行起来了。
爬虫相关模块
建议不要跑这个模块,直接部署本地数据库
京东爬虫
(1)进入 ~/src/backend/JDSpiders/Spider
(2)运行 mysql -u root -p
,输入密码进入MySQL 命令行,输入命令 source createDB.sql
建立数据库
(3)运行命令 python JDSpider.py
进行数据爬取和数据清洗(我集成到一起了)
(4) 注意事项:
① 由于京东的网页结构会经常变动,所以该爬虫在运行的时候不一定能成功运行
② 爬取参数不能调小了,否则会被京东封 IP
③ 由于近段时间京东检测策略变严,若跳出登录界面,则表明该IP被京东制裁了。解决方法是手动登录然后把链接里那串 pvid=xxxxxxxxxx 给输进去。如果按这样做还不成功就是京东又改策略了,我也没办法。。。
④ 建议在晚上12:00至凌晨5:00间运行,这段时间京东服务器压力小且网络流畅,爬数据不容易被检测到,出现丢包的概率也小。
⑤ 如果网络环境不好,爬到的东西会有部分数据缺失(比如评论数和好评率),但不会影响设备参数的爬取
配置单爬虫
(1)进入目录 ~/src/backend/Computer_Configurations
(2)运行 config_list_spider.py
可从 http://zj.zol.com.cn/top_diy.html 上爬取已有配置单数据
(3)运行 data_processing.py
可做数据清洗并得出各配件大概价格比例
(4)由此确定推荐算法中的各初始比例参数