Delete '20 高性能模式/000 普通做法.py'

2 years ago · dbd4cd1e68
parent a885e6b63e
commit dbd4cd1e68
1 changed files with 0 additions and 172 deletions
--- a/高性能模式/000
+++ b/高性能模式/000
@ -1,172 +0,0 @@
 import re
 import requests
 import random
 from util import Crawler
 from lxml import etree
 from datetime import datetime
 from selenium import webdriver
 from selenium.webdriver.common.by import By
 from selenium.webdriver.support.ui import WebDriverWait
 class CrawlerDataSource1(Crawler):
    """包含数据1爬虫普通做法相应函数的类"""
    def __init__(self) -> None:
        super().__init__()
        self.driver = self.setup_driver()
        self.url = random.choice(self.data_source_1)
    def setup_driver(self):
        """设置driver"""
        option = webdriver.EdgeOptions()
        # 添加实验性选项"detach"并设置为True
        option.add_experimental_option("detach", True)
        driver = webdriver.Edge(options=option)
        return driver
    def crawler_2(self) -> str:
        """单线程爬取数据2"""
        driver = self.driver
        try:
            driver.get(self.url)
            # 等待页面加载
            element = WebDriverWait(
                driver, 10).until(lambda x: driver.find_element(
                    by=By.XPATH,
                    value=
                    '//*[@id="app"]/div[2]/div[2]/div[2]/div[1]/div[1]/div[2]')
                                  )
            text_content = element.text
            return text_content
        except Exception as result:
            print(f"发现错误：{result}")
            return ""
        finally:
            driver.quit()
 class CrawlerDataSource2(Crawler):
    """包含数据2爬虫普通做法相应函数的类"""
    def __init__(self) -> None:
        super().__init__()
    def crawler_2(self, url: str):
        """单线程爬取数据2"""
        try:
            response = requests.post(url, headers=self.get_headers())
            html = response.content.decode('utf-8')
            tree = etree.HTML(html)
            text = tree.xpath('/html/body/div/div/div[4]/div[1]/p/text()')[0]
            return text
        except Exception as result:
            print(f"发现错误: {result}")
            # time.sleep(3)
            return None
    def get_data_2(self) -> str:
        """获取数据源2的一些数据并以字符串的形式收集到content中"""
        content = ''
        for url in self.data_source_2:
            text = self.crawler_2(url)
            if text:
                content = content + self.crawler_2(url)
        return content
 class CrawlerDataSource3(Crawler):
    """包含数据3爬虫普通做法相应函数的类"""
    def __init__(self) -> None:
        super().__init__()
    def crawler_3(self, url: str):
        """单线程爬取数据3"""
        try:
            response = requests.get(url, headers=self.get_headers())
            text = response.content.decode('utf-8')
            return text
        except Exception as result:
            print(f"发现错误: {result}")
            # time.sleep(3)
            return None
    def get_data_3(self) -> str:
        """获取数据源3的一些数据并以字符串的形式收集到content中"""
        content = ''
        for url in self.data_source_3:
            text = self.crawler_3(url)
            if text:
                content = content + self.crawler_3(url)
        return content
    def get_freqs_of_En(self, content: str) -> list[tuple[str, int]]:
        """获取英文文本的词频"""
        # 获取单词
        pattern = re.compile('[\W_]+')
        word_list = pattern.sub(' ', content).lower()
        word_list = word_list.split()
        # 过滤停用词
        word_list = [
            w for w in word_list if (w not in self.stop_words) and len(w) >= 3
        ]
        # 统计词频
        word_freqs = {}
        for word in word_list:
            word_freqs[word] = word_freqs.get(word, 0) + 1
        # 排序
        word_freqs = sorted(word_freqs.items(),
                            key=lambda x: x[1],
                            reverse=True)
        return word_freqs
 def work1() -> None:
    """简单方法爬取数据1"""
    cds1 = CrawlerDataSource1()
    content = cds1.crawler_2()
    word_freqs = cds1.get_freqs(content)
    cds1.print_freqs(word_freqs)
 def work2() -> None:
    """简单方法爬取数据2"""
    cds2 = CrawlerDataSource2()
    content = cds2.get_data_2()
    word_freqs = cds2.get_freqs(content)
    cds2.print_freqs(word_freqs)
 def work3() -> None:
    """简单方法爬取数据3"""
    cds3 = CrawlerDataSource3()
    content = cds3.get_data_3()
    word_freqs = cds3.get_freqs_of_En(content)
    cds3.print_freqs(word_freqs)
 if __name__ == '__main__':
    print("开始爬取数据1……")
    t0 = datetime.now()
    work1()
    t1 = datetime.now()
    print(f"数据1耗时:{t1-t0}")
    print("数据1爬取结束。\n")
    print("开始爬取数据1……")
    t0 = datetime.now()
    work2()
    t1 = datetime.now()
    print(f"数据2耗时:{t1-t0}")
    print("数据2爬取结束。\n")
    print("开始爬取数据1……")
    t0 = datetime.now()
    work3()
    t1 = datetime.now()
    print(f"数据3耗时:{t1-t0}")
    print("数据3爬取结束。\n")