You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
zjtj/doc/编译说明手册.md

3.1 KiB

编译说明手册

环境要求

  1. 操作系统:Windows 10

  2. 数据库版本:MySQL Ver 8.0.21 for Win64 on x86_64

  3. Python 版本:Python 3.7.x

  4. 依赖的Python 类库版本见 requirements.txt

  5. 浏览器:Google Chrome 91.0.4472.124 (64位)

  6. ChromeDriver 版本: 91.0.4472.101

  7. PHP 版本:php 7.4.9

相关模块编译运行

记 zjtj 目录的绝对路径为 ~

本地数据库部署

需要建立两个数据库:computer_accessories存放电脑配件信息,webData存放反馈和tips记录。

先使用mysql -u root -p进入sql命令行界面在该界面下进行数据库部署

create database computer_accessories;
use computer_accessories;
source ~/dbData/computer_accessories.sql;

create database webData;
use webData;
source ~/dbData/computer_accessories.sql;

设置数据库连接

在项目src文件夹下的dbConfig.json文件是数据库连接配置文件,修改其中的主机名、用户名和密码来正常连接数据库。

{
  "hostname": "192.168.136.129",
  "username" : "root",
  "password" : "1213800"
}

运行项目

首先下载好php,本项目使用的是php 7.4.9,建议下载软件phpStorm,进入软件后设置好CLI Interpreter路径(以下仅供参考):

image

配置好了就可以从phpStorm中的home.html进入网站主页,网站就运行起来了。

image

爬虫相关模块

建议不要跑这个模块,直接部署本地数据库

京东爬虫

1进入 ~/src/backend/JDSpiders/Spider

2运行 mysql -u root -p输入密码进入MySQL 命令行,输入命令 source createDB.sql 建立数据库

3运行命令 python JDSpider.py 进行数据爬取和数据清洗(我集成到一起了)

4 注意事项:

由于京东的网页结构会经常变动,所以该爬虫在运行的时候不一定能成功运行

爬取参数不能调小了,否则会被京东封 IP

由于近段时间京东检测策略变严若跳出登录界面则表明该IP被京东制裁了。解决方法是手动登录然后把链接里那串 pvid=xxxxxxxxxx 给输进去。如果按这样做还不成功就是京东又改策略了,我也没办法。。。

建议在晚上1200至凌晨500间运行这段时间京东服务器压力小且网络流畅爬数据不容易被检测到出现丢包的概率也小。

如果网络环境不好,爬到的东西会有部分数据缺失(比如评论数和好评率),但不会影响设备参数的爬取

配置单爬虫

1进入目录 ~/src/backend/Computer_Configurations

2运行 config_list_spider.py 可从 http://zj.zol.com.cn/top_diy.html 上爬取已有配置单数据

3运行 data_processing.py 可做数据清洗并得出各配件大概价格比例

4由此确定推荐算法中的各初始比例参数