ADD file via upload

3 years ago · b5088a556d
parent 9fe8ed3b4c
commit b5088a556d
1 changed files with 70 additions and 0 deletions
--- a/爬取数据.py
+++ b/爬取数据.py
@ -0,0 +1,70 @@
 from selenium import webdriver
 import time
 from selenium.webdriver.common.by import By
 from lxml.html import etree
 import csv
 all_data = []  # 保存全部数据
 url = "https://we.51job.com/pc/search?keyword=python&searchType=2&sortType=0&metro="
 option = webdriver.ChromeOptions()
 driver = webdriver.Chrome(options=option)
 driver.get(url)
 time.sleep(1)  # 等待网页加载
 error_page = []
 def get_info(text):
    doc = etree.HTML(text)
    job_list = doc.xpath('//div[@class="j_joblist"]/div')  # 定位到职位列表
    data = []
    for job in job_list:
        try:
            job_dict = {}
            job_dict['招聘时间'] = job.xpath('./a/div/span[@class="time"]/text()')[0]
            job_dict['职位名称'] = job.xpath('./a/div/span[@class="jname at"]/text()')[0]
            job_dict['详情链接'] = job.xpath('./a/@href')[0]
            job_dict['公司名称'] = job.xpath('./div[@class="er"]/a/text()')[0]
            job_dict['所属行业'] = job.xpath('./div[@class="er"]/p[@class="int at"]/text()')[0]
            Type_num = job.xpath('./div[@class="er"]/p[@class="dc at"]/text()')[0]
            job_dict['企业性质'] = Type_num.split('|')[0].replace(' ', '')
            job_dict['公司人数'] = Type_num.split('|')[-1].replace(' ', '')
            job_dict['职位关键词'] = ' '.join(job.xpath('./a/p[@class="tags"]//text()'))
            job_dict['工资'] = job.xpath('./a/p/span[@class="sal"]/text()')[0]
            job_dict['公司地址'] = job.xpath('./a/p/span[@class="d at"]/span[1]/text()')[0]
            job_dict['工作经验'] = job.xpath('./a/p/span[@class="d at"]/span[3]/text()')[0]
            a = job.xpath('./a/p/span[@class="d at"]//span/text()')
            job_dict['公司地址'] = a[0]
            job_dict['工作经验'] = a[2]
            job_dict['学历'] = a[-1]
            data.append(job_dict)
        except:
            pass
    return data
 for i in range(50):  # 爬取40页
    try:
        print(f"正在爬取第{i + 1}页的数据")
        html = driver.page_source  # 获取网页源码
        all_data.extend(get_info(html))  # 解析网页源码
        # 下一页按钮
        next_btn = driver.find_element(By.XPATH, '//button[@class="btn-next"]')
        next_btn.click()  # 点击下一页
        time.sleep(1)  # 等待网页加载
    except:
        pass
 def job_save(data):  # csv模块保存数据
    headers = ['招聘时间', '职位名称', '详情链接', '公司名称', '所属行业', '企业性质', "职位关键词", '工资', '公司地址', '学历', '工作经验', '公司人数']
    with open('python.csv', 'w', encoding='utf-8-sig', newline='') as fp:
        dict_witer = csv.DictWriter(fp, headers)
        dict_witer.writeheader()
        dict_witer.writerows(data)
        print('数据保存成功!!!')
        print('-' * 50)
 driver.close()
 job_save(all_data)  # 保存数据