You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
php6n4ras
7bbc8855b7
|
8 months ago | |
---|---|---|
JD.csv | 8 months ago | |
JDTest.py | 8 months ago | |
README.md | 8 months ago | |
jingdong.py | 8 months ago | |
visualization.py | 8 months ago | |
价格区间分布直方图.html | 8 months ago | |
评论数前十条直方图.html | 8 months ago |
README.md
京东网站Selenium抓取脚本说明文档
本文档解释了使用Selenium的Python脚本,用于登录京东网站,保存会话Cookie以供未来会话使用,并抓取多个页面上的产品数据。
依赖关系
脚本使用了几个Python库:
selenium
用于浏览器自动化time
用于管理延迟json
用于Cookie序列化csv
用于输出文件管理
确保使用pip安装所有依赖项:
pip install selenium
脚本功能概览
Cookie管理
- 登录和Cookie检索:
- 函数
getcookie()
用于通过扫描QR码手动登录京东网站,并在登录后自动保存会话Cookie到文件(Jdcookie.txt
)。这个过程在初始运行时需要手动操作以进行认证。 - 脚本等待直到URL变更为京东首页,表示登录成功,然后检索并保存Cookie。
- 函数
产品数据抓取
- 数据抓取流程:
- 再次运行脚本时(已保存Cookie),它加载这些Cookie以跳过登录步骤。
- 脚本遍历京东网站的搜索结果,搜索特定查询("口红")。
- 它从最多50页中抓取产品标题、价格、店铺名称和评论数等细节。
- 抓取的数据存储在
JD.csv
中。
详细分解
-
初始设置和Cookie加载:
- 启动Chrome浏览器。
- 从
Jdcookie.txt
读取并加载Cookie。 - 在确保所有数据正确加载后,自动导航到下一页。
-
导航和抓取:
- 加载Cookie后,它导航到首页并输入搜索词。
- 滚动页面并捕获列出的每个产品的数据。
- 捕获的数据包括标题、价格、店铺和评论数。
- 每页的结果都会被追加到CSV文件中。
- 使用隐式等待和显式滚动来管理页面加载和数据捕获。
-
错误处理和性能:
- 使用隐式和显式等待来管理页面加载时间和元素可见性。
- 打印有用的日志来跟踪运行过程中的进度和任何问题。
代码执行
- 首次运行: 在
if __name__ == '__main__':
块中取消注释getcookie()
以执行登录和Cookie检索。 - 后续运行: 在第一次成功运行后,注释掉
getcookie()
,使用保存的Cookie进行抓取。
脚本:
# 导入必要的库
from selenium import webdriver
import time
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import json
import csv
from selenium.webdriver.common.by import By
from time import sleep
# 初始化Chrome驱动
driver = webdriver.Chrome()
def getcookie():
# 这里填写登录和保存Cookies的代码
if __name__ == '__main__':
# 这里填写抓取数据的主要代码块
driver.get('http://www.jd.com/')
# 以下为抓取数据流程代码
driver.find_element(By.ID,'key').send_keys("口红")
driver.find_element(By.CLASS_NAME, 'button').click()
input() # 手动确认登录后继续
print("登录成功")
driver.get('http://www.jd.com/')
driver.find_element(By.ID,'key').send_keys("口红")
driver.find_element(By.CLASS_NAME, 'button').click()
driver.implicitly_wait(10)
with open('JD.csv', mode='w', encoding='UTF-8', newline='') as file:
csv.writer(file).writerow(['商品', '价格', '店铺', '评论数'])
for page in range(0, 50):
sleep(5)
# 下滑页面
js_down = "window.scrollTo(0, 8000)"
driver.execute_script(js_down)
sleep(5)
goods = driver.find_elements(By.CLASS_NAME, 'gl-i-wrap')
for good in goods:
title = good.find_element(By.CSS_SELECTOR, '.p-name em').text.strip()
price = good.find_element(By.CSS_SELECTOR, '.p-price strong').text.strip()
shop = good.find_element(By.CSS_SELECTOR, '.p-shop span a').text.strip()
comment = good.find_element(By.CSS_SELECTOR, '.p-commit strong a').text.strip()
print('title: ' + title)
print('price: ' + price)
print('shop: ' + shop)
print('comment: ' + comment)
# 用a+模式创建csv文件并写入
f = open('JD.csv', 'a+', encoding='utf-8')
# 基于文件对象构建csv写入
csv_a = csv.writer(f)
# 将数据写入
csv_a.writerow([title, price, shop, comment])
# 关闭文件
f.close()
driver.find_element(By.CLASS_NAME, 'pn-next').click()
print('下一页')
input() # 手动确认完成后继续
注意事项
- 浏览器版本: 确保Chrome浏览器和
chromedriver
兼容。 - 延迟和等待: 根据网络速度和系统性能调整睡眠时间和等待时间。
- 隐私和合规: 注意京东网站关于自动访问和数据抓取的服务条款。
本文档用于理解用于京东网站的Python Selenium脚本。本脚本旨在通过Selenium自动化浏览器操作模拟用户登录行为,并对特定商品数据进行抓取和存储,以便后续分析使用。此脚本在使用时遵守相关法律法规和网站条款,尊重数据隐私和版权。