ADD file via upload

11 months ago · b9ca767c79
parent 47ca70a518
commit b9ca767c79
1 changed files with 156 additions and 0 deletions
--- a/fujia.py
+++ b/fujia.py
@ -0,0 +1,156 @@
 import requests
 from urllib.parse import urlencode
 from pyquery import PyQuery as pq
 import time
 import xlwt
 import jieba
 from wordcloud import WordCloud
 import matplotlib.pyplot as plt
 from collections import Counter
 # 设置代理等（新浪微博的数据是用ajax异步下拉加载的，network->xhr）
 host = 'm.weibo.cn'
 base_url = f'https://{host}/api/container/getIndex?'
 # 设置请求头
 headers = {
    'Host': host,
    'Referer': 'https://m.weibo.cn/search?containerid=231522type%3D1%26q%3D%23%E7%BE%8E%E5%9B%BD%E7%96%AB%E6%83%85%23',
    'User-Agent': 'Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Mobile Safari/537.36'
 }
 # 按页数抓取数据
 def get_single_page(page):
    """
    获取单个页面的数据。
    :param page: 页面编号
    :return: JSON 数据
    """
    params = {
        'containerid': '231522type=1&q=#人工智能#',
        'page_type': 'searchall',
        'page': page
    }
    url = base_url + urlencode(params)
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.json()
    except requests.ConnectionError as e:
        print('抓取错误:', e.args)
 # 解析页面返回的JSON数据
 count = 0
 def parse_page(json_data):
    """
    解析页面返回的JSON数据。
    :param json_data: JSON 数据
    :return: 解析后的数据
    """
    global count
    items = json_data.get('data').get('cards')
    for item in items:
        mblog = item.get('mblog')
        if mblog:
            data = {
                'id': mblog.get('id'),
                'created': mblog.get('created_at'),
                'text': pq(mblog.get('text')).text()  # 提取内容中的文本
            }
            yield data
            count += 1
 def segment_text(text):
    """
    对文本进行分词处理。
    :param text: 输入文本
    :return: 分词后的列表
    """
    seg_list = jieba.cut(text.strip())
    return list(seg_list)
 def generate_wordcloud(words):
    """
    生成词云图。
    :param words: 分词后的单词列表
    """
    wordcloud = WordCloud(
        font_path='simhei.ttf',  # 指定字体路径
        background_color='white',
        width=800,
        height=600
    ).generate(' '.join(words))
    # 显示词云图
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()
    # 保存词云图
    wordcloud.to_file('fjt.png')
 def predict_event_probability(words, event_keywords):
    """
    根据关键词预测事件发生的概率。
    :param words: 分词后的单词列表
    :param event_keywords: 事件关键词列表
    :return: 事件发生的概率
    """
    word_count = Counter(words)
    total_words = sum(word_count.values())
    event_word_count = sum(word_count[word] for word in event_keywords if word in word_count)
    probability = event_word_count / total_words if total_words > 0 else 0
    return probability
 if __name__ == '__main__':
    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet('人工智能')
    # 设置列标题
    worksheet.write(0, 0, '创建时间')
    worksheet.write(0, 1, '文本')
    worksheet.write(0, 2, '分词结果')
    worksheet.write(0, 3, '事件概率')
    row = 1
    all_words = []
    event_keywords = ['人工智能']
    for page in range(1, 5):
        json_data = get_single_page(page)
        results = parse_page(json_data)
        tmp_list = []
        for result in results:
            created = result.get('created').strip('\n')
            text = result.get('text').strip('\n')
            segmented_text = segment_text(text)
            # 写入创建时间和文本
            worksheet.write(row, 0, label=created)
            worksheet.write(row, 1, label=text)
            # 写入分词结果
            for idx, word in enumerate(segmented_text):
                worksheet.write(row + idx, 2, label=word)
            all_words.extend(segmented_text)  # 添加分词结果到列表
            # 计算事件概率
            event_probability = predict_event_probability(segmented_text, event_keywords)
            worksheet.write(row, 3, label=event_probability)
            row += len(segmented_text)  # 更新行号
        time.sleep(1)  # 爬取时间间隔
        workbook.save('fjt.xls')
    # 生成词云图
    generate_wordcloud(all_words)