Go to file

php6n4ras dfc8b45b13 Delete '汇报PPT.pptx'		2 years ago
JD.csv	ADD file via upload	2 years ago
JDTest.py	ADD file via upload	2 years ago
README.md	Update README.md	2 years ago
final.py	Add final.py	2 years ago
jingdong.py	ADD file via upload	2 years ago
visualization.py	ADD file via upload	2 years ago
价格区间分布直方图.html	ADD file via upload	2 years ago
评论数前十条直方图.html	ADD file via upload	2 years ago

README.md

Unescape Escape

京东网站Selenium抓取脚本说明文档

本文档解释了使用Selenium的Python脚本，用于登录京东网站，保存会话Cookie以供未来会话使用，并抓取多个页面上的产品数据。

依赖关系

脚本使用了几个Python库：

selenium 用于浏览器自动化
time 用于管理延迟
json 用于Cookie序列化
csv 用于输出文件管理

脚本功能概览

Cookie管理

登录和Cookie检索：
- 函数getcookie()用于通过扫描QR码手动登录京东网站，并在登录后自动保存会话Cookie到文件（Jdcookie.txt）。这个过程在初始运行时需要手动操作以进行认证。
- 脚本等待直到URL变更为京东首页，表示登录成功，然后检索并保存Cookie。

商品数据抓取

数据抓取流程：
- 再次运行脚本时（已保存Cookie），它加载这些Cookie以跳过登录步骤。
- 脚本遍历京东网站的搜索结果，搜索特定的查询（"口红"）。
- 它从最多50页中抓取产品标题、价格、店铺名称和评论数等要素。
- 抓取的数据存储在JD.csv中。

详细分解

初始设置和Cookie加载：
- 启动Chrome浏览器。
- 从Jdcookie.txt读取并加载Cookie。
- 在确保所有数据正确加载后，自动导航到下一页。
导航和抓取：
- 加载Cookie后，它导航到首页并输入搜索词。
- 滚动页面并捕获列出的每个产品的数据。
- 捕获的数据包括标题、价格、店铺和评论数。
- 每页的结果都会被追加到CSV文件中。
- 使用隐式等待和显式滚动来管理页面加载和数据捕获。
错误处理和性能：
- 使用隐式和显式等待来管理页面加载时间和元素可见性。
- 打印有用的日志来跟踪运行过程中的进度和任何问题。

代码执行

首次运行： 在if __name__ == '__main__':块中取消注释getcookie()以执行登录和Cookie检索。
后续运行： 在第一次成功运行后，注释掉getcookie()，使用保存的Cookie进行抓取。

脚本：

# 导入必要的库
from selenium import webdriver
import time
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import json
import csv
from selenium.webdriver.common.by import By
from time import sleep

# 初始化Chrome驱动
driver = webdriver.Chrome()

def getcookie():
    # 这里填写登录和保存Cookies的代码

if __name__ == '__main__':
    # 这里填写抓取数据的主要代码块
    driver.get('http://www.jd.com/')
    # 以下为抓取数据流程代码
    driver.find_element(By.ID,'key').send_keys("口红")
    driver.find_element(By.CLASS_NAME, 'button').click()
    input()  # 手动确认登录后继续
    print("登录成功")
    driver.get('http://www.jd.com/')
    driver.find_element(By.ID,'key').send_keys("口红")
    driver.find_element(By.CLASS_NAME, 'button').click()
    driver.implicitly_wait(10)
    with open('JD.csv', mode='w', encoding='UTF-8', newline='') as file:

        csv.writer(file).writerow(['商品', '价格', '店铺', '评论数'])
    for page in range(0, 50):
        sleep(10)
        # 下滑页面
        js_down = "window.scrollTo(0, 8000)"
        driver.execute_script(js_down)
        sleep(10)
        goods = driver.find_elements(By.CLASS_NAME, 'gl-i-wrap')
        for good in goods:
            title = good.find_element(By.CSS_SELECTOR, '.p-name em').text.strip()
            price = good.find_element(By.CSS_SELECTOR, '.p-price strong').text.strip()
            shop = good.find_element(By.CSS_SELECTOR, '.p-shop span a').text.strip()
            comment = good.find_element(By.CSS_SELECTOR, '.p-commit strong a').text.strip()
            print('title: ' + title)
            print('price: ' + price)
            print('shop: ' + shop)
            print('comment: ' + comment)
            # 用a+模式创建csv文件并写入
            f = open('JD.csv', 'a+', encoding='utf-8')
            # 基于文件对象构建csv写入
            csv_a = csv.writer(f)
            # 将数据写入
            csv_a.writerow([title, price, shop, comment])
            # 关闭文件
            f.close()
        driver.find_element(By.CLASS_NAME, 'pn-next').click()
        print('下一页')

    input()  # 手动确认完成后继续

注意事项

浏览器版本： 确保Chrome浏览器和chromedriver兼容。
延迟和等待： 根据网络速度和系统性能调整睡眠时间和等待时间。
隐私和合规： 注意京东网站关于自动访问和数据抓取的服务条款。

本文档用于理解用于京东网站的Python Selenium脚本。本脚本旨在通过Selenium自动化浏览器操作模拟用户登录行为，并对特定商品数据进行抓取和存储，以便后续分析使用。此脚本在使用时遵守相关法律法规和网站条款，尊重数据隐私和版权。

README.md Unescape Escape