ADD file via upload

12 months ago · cbc55ce643
parent 6b220f9450
commit cbc55ce643
1 changed files with 142 additions and 0 deletions
--- a/测试.py
+++ b/测试.py
@ -0,0 +1,142 @@
+import cProfile
+import requests
+from bs4 import BeautifulSoup
+import re
+import math
+from openpyxl import Workbook
+import jieba
+import matplotlib.pyplot as plt
+from wordcloud import WordCloud
+from PIL import Image
+import numpy as np
+
+barrages_num=20#单个视频爬取弹幕数量
+video_num=300#爬取视频数量
+
+# 获取视频页面的HTML内容
+def get_video_html(url):
+    response = requests.get(url)
+    return response.text
+
+# 获取B站搜索结果页面的HTML内容
+def get_search_results_html():
+    page,html=1,''
+    url = "https://search.bilibili.com/all?keyword=2024巴黎奥运会"
+    header = {
+        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36",
+        "Cookie":"buvid3=2F38CD55-CCD9-0D05-EFAC-D78F4FCEE3A133631infoc; b_nut=1691060433; i-wanna-go-back=-1; _uuid=E37F628D-CE5A-5DD1-B23C-910B92326A76633722infoc; FEED_LIVE_VERSION=V8; header_theme_version=CLOSE; SESSDATA=d324dcc4%2C1706612493%2C8ce13%2A81zqyFrgt0rrTutbzOcf6NXii0x3EXBwvDIT9w6zs4rXoM6miWp779yNngwMbCD26szHztpgAAEgA; bili_jct=348a40f9dff0f5a035a9bec3dd91083c; DedeUserID=520029018; DedeUserID__ckMd5=179dfa6087c5f3f9; rpdid=|(mmJlY|~||0J'uYmu|Y|Rm); buvid4=0A6B4ED8-EFBE-C823-919F-2D38E9352F7055238-023020811-AYMpmfEzGjyejvuh2eCCkA%3D%3D; buvid_fp_plain=undefined; nostalgia_conf=-1; b_ut=5; is-2022-channel=1; LIVE_BUVID=AUTO1116911562759162; CURRENT_QUALITY=116; hit-new-style-dyn=1; hit-dyn-v2=1; CURRENT_BLACKGAP=0; fingerprint=d1f57f19105afe876875f4d406cae4a6; CURRENT_FNVAL=4048; home_feed_column=5; browser_resolution=1699-953; bili_ticket=eyJhbGciOiJIUzI1NiIsImtpZCI6InMwMyIsInR5cCI6IkpXVCJ9.eyJleHAiOjE2OTQxODU1MTIsImlhdCI6MTY5MzkyNjMxMiwicGx0IjotMX0.gFAVbUppg5H_wIZGERddzOAdrhwXERwn1ImjtxkE2AY; bili_ticket_expires=1694185512; PVID=3; buvid_fp=d1f57f19105afe876875f4d406cae4a6; b_lsid=12A610B5C_18A68640A2F; sid=6ocelinu; bp_video_offset_520029018=837948252620849161"
+    }
+    #遍历所有网页，生成总的html文件
+    for page in range(math.ceil(video_num/30)):
+        cur_url=url+"&page="+str(page)
+        response = requests.get(cur_url,headers=header)
+        html+=response.text
+    return html
+
+# 解析HTML，提取视频链接
+def get_video_links(html):
+    soup = BeautifulSoup(html, "html.parser")
+    bvids = re.findall(r'bvid:"([^"]+)"', html)#获取视频bv号，与固定的字符串连接即可得到视频链接
+    video_links = []
+    for vid in bvids:
+        video_links.append("https://www.bilibili.com/video/"+vid)
+    return video_links
+
+def tranfrom_url(url):
+    #将视频链接转换为可获取弹幕地址的网页链接(www.ibilibili.com)
+    url_index = url.find('bilibili')
+    new_url = url[:url_index] + 'i' + url[url_index:]
+    return new_url
+
+# 解析视频页面，提取弹幕信息
+def get_barrages_list(html):
+    soup = BeautifulSoup(html, "html.parser")
+    barrage_info = []
+    barrages_url=re.findall('https://api.bilibili.com/x/v1/dm/list.so\?oid=\d+',html)#通过正则表达式从网页提出出弹幕api
+    barrages_response=requests.get(barrages_url[0])
+    barrages_response.encoding='utf-8'
+    barrages_list = re.findall('<d p=".*?">(.*?)</d>', barrages_response.text)#从存储弹幕网页中爬取所有弹幕信息存储在列表中
+    return barrages_list
+
+# 统计弹幕数量并排序
+def count_and_sort_barrages(barrage_list):
+    barrages_count = {}
+    for barrage in barrage_list:
+        if barrage in barrages_count:
+            barrages_count[barrage] += 1
+        else:
+            barrages_count[barrage] = 1
+    sorted_barrages = sorted(barrages_count.items(), key=lambda x: x[1], reverse=True)#对弹幕进行排序
+    return sorted_barrages
+
+# 输出综合排序前300的弹幕
+def output_top_barrages(sorted_barrages):
+    for i, (barrage, count) in enumerate(sorted_barrages[:barrages_num]):
+        print(f"{i+1}. 弹幕: {barrage}，数量: {count}")
+
+# 将结果保存到excel文件中
+def save_excel(sorted_barrages):
+    wb = Workbook()
+    ws = wb.active
+    ws.cell(row=1, column=1).value='排序'
+    ws.cell(row=1, column=2).value = '数量'
+    ws.cell(row=1, column=3).value = '弹幕'
+    for i, row in enumerate(sorted_barrages[:20]):
+        ws.cell(row=i + 2, column=1).value = 'No.'+str(i+1)
+        ws.cell(row=i + 2, column=2).value = row[1]
+        ws.cell(row=i + 2, column=3).value = row[0]
+    wb.save('output.xlsx')
+
+# 生成词云图
+def create_wordcloud(sorted_barrages):
+    barrages_text = [x[0] for x in sorted_barrages]
+    stop = {'AI', '人工智能', '智能', '算法'}
+    barrages_cut = [word for x in barrages_text for word in jieba.lcut(x) if word not in stop]
+    text = ' '.join(barrages_cut)
+    background_img = np.array(Image.open('earth_mask.jpg'))
+    # 生成对象
+    wc = WordCloud(font_path='simsun.ttc',
+                   width=800, height=600,
+                   max_words=400,
+                   mode="RGBA",
+                   background_color='lightblue',
+                   mask=background_img,
+                   stopwords=stop).generate(text)
+
+    # 生成词云图
+    plt.imshow(wc, interpolation="bilinear")
+    plt.axis("off")
+    plt.show()
+
+# 主函数
+def main():
+    print("开始爬取")
+    search_results_html = get_search_results_html()
+    video_links = get_video_links(search_results_html)
+    barrage_info = []
+    index = 0
+    for link in video_links[:video_num]:
+        new_link=tranfrom_url(link)
+        video_page_html = get_video_html(new_link)
+        barrage_info.extend(get_barrages_list(video_page_html))
+        index += 1
+        print(f'已爬取{index}条视频')
+    sorted_barrages = count_and_sort_barrages(barrage_info)
+    output_top_barrages(sorted_barrages)
+    save_excel(sorted_barrages)
+    create_wordcloud(sorted_barrages)
+
+def profile():
+    stats = pstats.Stats('profile_stats')
+    stats.strip_dirs().sort_stats('cumulative').print_stats(20)
+    stats.sort_stats('time').print_stats(20)
+    stats.sort_stats('calls').print_stats(20)
+    stats.sort_stats('ncalls').print_stats(20)
+
+    # 可视化性能分析图
+    stats.dump_stats('profile_stats_callers')
+    stats.stream = 'profile_stats_callers'
+    stats.print_callers(20)
+
+if __name__ == "__main__":
+    profile()