个人代码

4 years ago · 86df8a89cf
parent 7afc85e45b
commit 86df8a89cf
1 changed files with 87 additions and 0 deletions
--- a/SpiderWebsite/demo/views.py
+++ b/SpiderWebsite/demo/views.py
@ -279,3 +279,90 @@ def begin_spider(url, web_name):
    datalist = getData(url)
    saveData(savepath,datalist,web_name)
 import csv
 from lxml import etree
 import requests
 def begin_spider(url, web_name):
    url = "https://guilin.zbj.com/search/f/?type=new&kw=saas"
    # 设置headers，防止UA验证，Host为要爬取的域名,通过浏览器F12获取User-Agent
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.51"
    }
    response = requests.get(url=url, headers=headers)
    html = etree.HTML(response.text)   #通过etree解析文本内容
    divs = html.xpath("/html/body/div[6]/div/div/div[2]/div[6]/div[1]/div") #通过浏览器的F12获取对应页面的xpath，
    f = open("data.csv", 'w', encoding='utf-8')
    csv_writer = csv.writer(f)
    for div in divs:
        price_temp = div.xpath("./div/div/a[1]/div[2]/div[1]/span[1]/text()") #找到价格位置的Xpath
        title_temp = div.xpath("./div/div/a[1]/div[2]/div[2]/p/text()")#找到项目名称位置的Xpath
        Company_temp = div.xpath("./div/div/a[2]/div[1]/p/text()")#找到公司名字位置的Xpath
        Address_temp = div.xpath("./div/div/a[2]/div[1]/div/span/text()")#找到公司地点位置的Xpath
        # 以下均为对数据的处理
        if len(price_temp) != 0 and len(title_temp) != 0 and len(Company_temp) != 0 and len(Address_temp) != 0:#为了处理一些较为特殊的数据，所以加次判断
            price = price_temp[0].strip("¥")   #去除价格的符号
            title = "SAAS".join(title_temp)    #将项目名称做美化
            Company = Company_temp[0]     #去除括号
            Address = Address_temp[0]     #去除括号
            csv_writer.writerow([price, title, Company, Address]) #写入文件
 def main():
    begin_spider("https://guilin.zbj.com/search/f/?type=new&kw=saas", "猪八戒")
 if __name__ == '__main__':
    main()
 import json
 import time
 import requests
 # 设置headers，防止UA验证，Host为要爬取的域名,通过浏览器F12获取User-Agent
 headers = {
    'Host': 'music.163.com',
 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.51"
 }
 def begin_spider(page, url, web_name):
    """
    获取评论信息
    """
    url = 'https://music.163.com/api/v1/resource/comments/R_SO_4_483671599?limit=10&offset=' + str(page) #调用网易云音乐评论区的api
    response = requests.get(url=url, headers=headers)#获取请求
    print(response.status_code)
    # 将字符串转为json格式
    result = json.loads(response.text)
    items = result['comments']   #从一大堆的文字中提取评论区的内容，这个地方不懂得话，可以debug看一下
    for item in items:   #开始提取评论区内容
        # 用户名
        user_name = item['user']['nickname'].replace(',', '，')  #从json串获取到用户名
        # 评论内容
        comment = item['content'].strip().replace('', '').replace(',', '，') #从json中获取评论内容
        # 评论点赞数
        praise = str(item['likedCount'])   #从json中获取评论点赞数
        # 评论时间
        date = time.localtime(int(str(item['time'])[:10]))   #从json中获取评论时间
        date = time.strftime("%Y-%m-%d %H:%M:%S", date)
        with open('test.csv', 'a', encoding='utf-8-sig') as f:     #保存到文件中
            f.write(user_name + ',' + comment + ',' + praise + ',' + date + '\n')
        f.close()
 def main():
    for i in range(0, 100, 20):
        begin_spider(i,"https://music.163.com/","网易云")
        time.sleep(1)
 if __name__ == '__main__':
    main()