web_crawler/pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from urllib import parse

import openpyxl
from itemadapter import ItemAdapter
import os
import json
from openpyxl import Workbook
from spider.spiders.Redis_Con import Redis_Con


class IPProxyPipeline:

    def process_item(self, item, spider):
        r = Redis_Con().r
        r.lpush('freeip',item['ip'])
        print('免费代理已写入IP池')
        return item


class RedisSavePipeline(object):

    def process_item(self, item, spider):
        # 用于存储到Redis的Pipe
        r = Redis_Con().r

        # 获取当前的type值
        print('json输出---->' + json.dumps(item))
        # dict转json存redis
        datanum = item['type']
        r.lpush('%s' % self.typetostr(int(datanum)), json.dumps(item))

        return item

    def typetostr(self, id):
        typeTostr = {24: '喜剧', 11: '剧情', 5: '动作', 13: '爱情', 17: '科幻', 25: '动画', 10: '悬疑', 19: '惊悚', 20: '恐怖', 1: '纪录片',
                     23: '短片', 6: '色情', 26: '同性', 14: '音乐', 7: '歌舞', 28: '家庭', 2: '传记', 8: '儿童', 4: '历史', 22: '战争',
                     3: '犯罪', 27: '西部',
                     16: '奇幻', 15: '冒险', 12: '灾难', 29: '武侠', 30: '古装', 18: '运动', 31: '黑色电影'}
        return typeTostr[id]


class ExcelPipeline(object):

    def typetostr(self, id):
        typeTostr = {24: '喜剧', 11: '剧情', 5: '动作', 13: '爱情', 17: '科幻', 25: '动画', 10: '悬疑', 19: '惊悚', 20: '恐怖', 1: '纪录片',
                     23: '短片', 6: '色情', 26: '同性', 14: '音乐', 7: '歌舞', 28: '家庭', 2: '传记', 8: '儿童', 4: '历史', 22: '战争',
                     3: '犯罪', 27: '西部',
                     16: '奇幻', 15: '冒险', 12: '灾难', 29: '武侠', 30: '古装', 18: '运动', 31: '黑色电影'}
        return typeTostr[id]

    def process_item(self, item, spider):
        now_t = self.typetostr(int(item['type']))
        name = "豆瓣爬虫结果.xlsx"
        line = [item['电影名称'], item['评分'], item['排名'], ''.join(item['类型']), item['国家'], item['上映时间'],
                ''.join(item['演员']), parse.unquote(item['喜爱区间'])]


        if os.path.exists(name):  #Execl文件是否存在判断
            #直接打开返回对应表
            wb = openpyxl.load_workbook(name)
            # 表是否存在 ?
            if now_t not in wb.get_sheet_names():
                wb.create_sheet(now_t)

        else:#不存在Excel文件
            wb = openpyxl.Workbook(name)
            wb.create_sheet(now_t)

        ws = wb[now_t]
        ws.append(['电影名称', '评分', '排名', '类型', '国家', '上映时间', '演员', '喜爱区间'])
        ws.append(line)
        ws.save(name)
        return item
ADD file via upload 3 years ago			`# Define your item pipelines here`
			`#`
			`# Don't forget to add your pipeline to the ITEM_PIPELINES setting`
			`# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html`


			`# useful for handling different item types with a single interface`
			`from urllib import parse`

			`import openpyxl`
			`from itemadapter import ItemAdapter`
			`import os`
			`import json`
			`from openpyxl import Workbook`
			`from spider.spiders.Redis_Con import Redis_Con`


			`class IPProxyPipeline:`

			`def process_item(self, item, spider):`
			`r = Redis_Con().r`
			`r.lpush('freeip',item['ip'])`
			`print('免费代理已写入IP池')`
			`return item`


			`class RedisSavePipeline(object):`

			`def process_item(self, item, spider):`
			`# 用于存储到Redis的Pipe`
			`r = Redis_Con().r`

			`# 获取当前的type值`
			`print('json输出---->' + json.dumps(item))`
			`# dict转json存redis`
			`datanum = item['type']`
			`r.lpush('%s' % self.typetostr(int(datanum)), json.dumps(item))`

			`return item`

			`def typetostr(self, id):`
			`typeTostr = {24: '喜剧', 11: '剧情', 5: '动作', 13: '爱情', 17: '科幻', 25: '动画', 10: '悬疑', 19: '惊悚', 20: '恐怖', 1: '纪录片',`
			`23: '短片', 6: '色情', 26: '同性', 14: '音乐', 7: '歌舞', 28: '家庭', 2: '传记', 8: '儿童', 4: '历史', 22: '战争',`
			`3: '犯罪', 27: '西部',`
			`16: '奇幻', 15: '冒险', 12: '灾难', 29: '武侠', 30: '古装', 18: '运动', 31: '黑色电影'}`
			`return typeTostr[id]`


			`class ExcelPipeline(object):`

			`def typetostr(self, id):`
			`typeTostr = {24: '喜剧', 11: '剧情', 5: '动作', 13: '爱情', 17: '科幻', 25: '动画', 10: '悬疑', 19: '惊悚', 20: '恐怖', 1: '纪录片',`
			`23: '短片', 6: '色情', 26: '同性', 14: '音乐', 7: '歌舞', 28: '家庭', 2: '传记', 8: '儿童', 4: '历史', 22: '战争',`
			`3: '犯罪', 27: '西部',`
			`16: '奇幻', 15: '冒险', 12: '灾难', 29: '武侠', 30: '古装', 18: '运动', 31: '黑色电影'}`
			`return typeTostr[id]`

			`def process_item(self, item, spider):`
			`now_t = self.typetostr(int(item['type']))`
			`name = "豆瓣爬虫结果.xlsx"`
			`line = [item['电影名称'], item['评分'], item['排名'], ''.join(item['类型']), item['国家'], item['上映时间'],`
			`''.join(item['演员']), parse.unquote(item['喜爱区间'])]`


			`if os.path.exists(name): #Execl文件是否存在判断`
			`#直接打开返回对应表`
			`wb = openpyxl.load_workbook(name)`
			`# 表是否存在 ?`
			`if now_t not in wb.get_sheet_names():`
			`wb.create_sheet(now_t)`

			`else:#不存在Excel文件`
			`wb = openpyxl.Workbook(name)`
			`wb.create_sheet(now_t)`

			`ws = wb[now_t]`
			`ws.append(['电影名称', '评分', '排名', '类型', '国家', '上映时间', '演员', '喜爱区间'])`
			`ws.append(line)`
			`ws.save(name)`
			`return item`