You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 
 
Go to file
wufayuan ddcf395145
将爬虫采集器替换并嵌入合并到系统中,大幅度提高爬取速度
2 years ago
.idea 较为完整的 2 years ago
bin 较为完整的 2 years ago
conf 将爬虫采集器替换并嵌入合并到系统中,大幅度提高爬取速度 2 years ago
dcs 将爬虫采集器替换并嵌入合并到系统中,大幅度提高爬取速度 2 years ago
docs/pictures 重新上传了爬虫服务器程序结构图 3 years ago
ui 将爬虫采集器替换并嵌入合并到系统中,大幅度提高爬取速度 2 years ago
.gitignore 重构了整个项目,使之更符合“多个系统-相互协同”的模型,同时,实现了爬虫任务系统及其分发与远程和本地结果组合。多系统采用轮询的方式,一旦接受任务就开启对应的执行线程,整个系统得以真正实现多用户同时访问。此外,完善了cookie机制,包括用户认证与识别,完善了从数据库中提取数据并组合,完善了多系统协调机制,初步实现了客户端的初始代码等等 3 years ago
README.md 重新上传了爬虫服务器程序结构图 3 years ago
requirements.txt 较为完整的 2 years ago
setup.py Initial commit 3 years ago

README.md

分布式爬虫系统

下载&安装

爬虫

安装selenium

pip3 install selenium

安装 mysqlpymysql 并配置

下载edge浏览器引擎

https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/

img

浏览器 --> 设置 --> 关于 Microsoft Edge --> 版本信息。和上面对应(浏览器图标也要对应上,是这个带 绿色 的)

img

把下载的浏览器引擎程序放在 dcs/bin 目录下

可以用下面的脚本测试

from time import sleep
from selenium import webdriver
 
driverfile_path = r'G:\Users\god\PycharmProjects\dcs\bin\msedgedriver.exe'
driver = webdriver.Edge(executable_path=driverfile_path)
 
driver.get(r'https://www.baidu.com/')
 
sleep(5)
driver.close()

上面的路径需要自己对应改一下

运行

python3 运行 main.py 文件,开启 server、spider、user_process、requester、communicate 五个服务线程,分布式爬虫系统服务端开始运行和监测。

node 运行 login.js即可开启web服务器可接收浏览器请求之后与爬虫服务器通信取得结果后返回浏览器。

再运行 client.py 文件,运行客户端,开始请求爬虫任务,服务端即可接收、分配并执行、组合,最终返回结果到客户端。

运行截图

image-20220421204241089

image-20220421204341598

image-20220421204402347

项目结构图

image-20220421204402357

服务器运行日志

https://code.educoder.net/attachments/entries/get_file?download_url=https://code.educoder.net/api/p3t2ja9zs/dcs/raw?filepath=dcs/dcs.log&ref=master

更新日志

V1.0

基本框架搭建完毕实现核心的类“P2P”机制