From 62066be8b1938fffa2ad63409f908581f62e0fa5 Mon Sep 17 00:00:00 2001 From: ms4cfzqku <2274881056@qq.com> Date: Wed, 18 Sep 2024 20:36:58 +0800 Subject: [PATCH] ADD file via upload --- 102201337 韩钰.py | 247 +++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 247 insertions(+) create mode 100644 102201337 韩钰.py diff --git a/102201337 韩钰.py b/102201337 韩钰.py new file mode 100644 index 0000000..0045fb8 --- /dev/null +++ b/102201337 韩钰.py @@ -0,0 +1,247 @@ +import asyncio +import csv +import os +import time + +from bilibili_api import search, sync, video, Credential, ass +from typing import List, Dict + +ASS_DIRECTORY_PATH = '弹幕文件' +WORDCLOUD_DIRECTORY_PATH = '词云图' + + +async def get_videos_info_by_keyword(keyword: str) -> List[str]: + """ + 根据搜索关键字获取按照时间排序的视频信息列表 + :param keyword: 传入搜索关键字 + :return: 返回关键字搜索结果列表 + """ + page_index = 1 + info_list = [] + while True: + try: + rtn_dict = await search.search_by_type(keyword, search_type=search.SearchObjectType.VIDEO, + order_type=search.OrderVideo.TOTALRANK, + order_sort=0, page=page_index, page_size=30) + await asyncio.sleep(3) # 休眠3秒 + except Exception as e: + # print('get_videos_info_by_keyword函数执行出现异常:', str(e)) + await asyncio.sleep(8) # 休眠8秒 + continue + + if 'result' in rtn_dict.keys() and page_index < 11: + info_list.extend(rtn_dict['result']) + for info in rtn_dict['result']: + print(info) # 显示打印信息 + + else: + bvid_list = [] + for info in info_list: + bvid_list.append(info['bvid']) + return bvid_list + page_index += 1 + + +def create_directory(directory_name): + """ + 检查目录是否存在,如果不存在则创建该目录。 + + 参数: + directory_name (str): 要检查的目录名称(包括路径,如果需要的话)。 + + 返回: + None + """ + # 检查目录是否存在 + if not os.path.exists(directory_name): + # 如果不存在,则创建目录 + os.makedirs(directory_name) + + +def generate_single_ass_file(bvid: str, c: Credential, directory: str = '弹幕文件') -> bool: + v = video.Video(bvid, credential=c) # 初始化视频对象 + full_file_path = directory + '\\' + bvid + '.ass' + + create_directory(directory) + RETRY_COUNT = 3 # 尝试总数量 + count = 1 + while count <= RETRY_COUNT: + try: + sync(ass.make_ass_file_danmakus_protobuf( + obj=v, # 生成弹幕文件的对象 + page=0, # 哪一个分 P (从 0 开始) + out=full_file_path, # 输出文件地址 + credential=c + )) + time.sleep(10) # 休眠10秒 + print(full_file_path) + return True + except Exception as e: + print(f'出现异常:{bvid}', str(e)) + time.sleep(15) # 出现异常,休眠15秒 + if 'total' in str(e): + return False + count += 1 + return False + + +def generate_ass_files(bvid_list: List[str], c: Credential, directory: str = '弹幕文件') -> bool: + """ + 传入搜索的bvid列表,生成ass弹幕数据 + :param c: 凭证 + :param directory: 存储弹幕文件的目录 + :param bvid_list:包含bvid数据的列表 + :return: + """ + for bvid in bvid_list: + generate_single_ass_file(bvid, c, directory) + time.sleep(3) # 休眠3秒 + return True + + +def get_file_path_list_in_directory(directory): + """ + 获取指定目录下所有文件的名称,并返回这些名称的列表。 + + 参数: + directory (str): 要搜索的目录的路径。 + + 返回: + list: 包含该目录下所有文件名称的列表。 + """ + file_path_list = [] + # 遍历目录中的所有项 + for item in os.listdir(directory): + # 构建完整的文件路径 + full_path = os.path.join(directory, item) + # 检查是否是一个文件(不是目录) + if os.path.isfile(full_path): + file_path_list.append(full_path) # 将文件名添加到列表中 + return file_path_list + + +def extract_data_after_marker(file_path, marker=')}'): + results = [] + with open(file_path, 'r', encoding='utf-8') as file: + for line in file: + if line.startswith('Dialogue:'): + # 标记(如')}')之后的所有内容 + + parts = line.split(',', maxsplit=8) # 假设文本是第九个字段(索引为8) + if len(parts) > 8: + # 去除文本字段中可能存在的样式或效果定义(如果有的话) + # 这通常涉及查找并去除大括号内的内容,但这里我们简化处理 + text = parts[8].strip() + # 如果')}'确实在文本中,并且你想要它之后的内容 + index = text.find(marker) + if index != -1: + # 提取')}'之后的所有内容 + data_after_marker = text[index + len(marker):].strip() + results.append(data_after_marker) + else: + # 如果没有找到')}',我们可能想要整个文本字段 + # 但这里我们假设只添加找到')}'之后内容的情况 + pass + else: + # 没有足够的字段,可能不是一条完整的Dialogue行 + pass + return results + + +def get_all_ass_data_list(directory) -> List[str]: + """ + 传入目录路径,获取该路径下左右ass文件中的数据 + :param directory: 目录 + :return: 返回包含所有弹幕数据的列表 + """ + ass_data_list = [] + file_path_list = get_file_path_list_in_directory(directory) + for file_path in file_path_list: + ass_data_list.extend(extract_data_after_marker(file_path)) + return ass_data_list + + +def get_csv_full_file(file_name: str) -> str: + """ + 获取要写入的csv文件路径 + :param file_name: 文件名称 + :return: 文件路径 + """ + return os.path.join(WORDCLOUD_DIRECTORY_PATH, file_name) + + +def write_to_csv(file_name: str, data: List) -> bool: + # 获取文件完整存储路径 + file_full_path = get_csv_full_file(file_name) + data_list = [data] + try: + with open(file_full_path, 'w', newline='', encoding='utf-8-sig') as csvfile: + csvwriter = csv.writer(csvfile) + csvwriter.writerows(data_list) + print(f'写入文件{file_full_path}成功') + return True + except Exception as e: + print(f"写入失败:{e}") + return False + + +def filter_statements_by_keywords(statements) -> List[str]: + # 初始化一个空列表来存储包含关键词的语句 + filtered_statements = [] + keywords = ['8K超高清直播', '3D全息视频技术', 'AI平台全方位分析运动数据', 'AI为视障人士搭建无障碍设施', + '辅助现场管理', '专属于运动员的GPT', '助力数字收藏', 'ai音效'] + # 遍历语句列表 + for statement in statements: + # 遍历关键词列表 + for keyword in keywords: + # 如果语句中包含关键词,则添加到结果列表中 + # 注意:这里使用strip()是为了处理可能的前后空格 + if keyword.strip() in statement: + filtered_statements.append(statement) + # 如果一个语句可能包含多个关键词,但只想添加一次,可以取消下面这行的注释 + # 并将其放置在内部循环的末尾,但这会改变逻辑(即只考虑第一个匹配的关键词) + # break + + # 返回包含关键词的语句列表 + return filtered_statements + + +def write_list_to_txt_file(file_path, data_list): + """ + 将列表中的元素换行写入到指定的文件中。 + + :param file_path: 文件的路径(包括文件名) + :param data_list: 要写入文件的列表 + :return: 写入成功返回True,写入失败返回False + """ + try: + # 使用'w'模式打开文件,如果文件不存在则创建,如果文件已存在则覆盖 + with open(file_path, 'w', encoding='utf-8') as file: + for item in data_list: + # 写入列表元素并换行 + file.write(f"{item}\n") + # 如果没有异常发生,则认为写入成功 + return True + except Exception as e: + # 如果发生异常,则认为写入失败,并打印错误信息 + print(f"写入文件时发生错误: {e}") + return False + + +if __name__ == '__main__': + credential = Credential( + sessdata="b6e6f337%2C1742184491%2Cd4926%2A91CjDUM9dIQqffWha-wOu21sO84l8qDzJdawk_L-u2C37uPmwhJBSTtcx8qLue45cs2W8SVnRyaXZGRU5hREQtWnVyczNWYUtxQmFIWm1DWUdZdUxZWmdkZUU4YXNyWU9ISDBkWERoRkEySE1pUGpubzBvZzBSUkdrNzN3Z3FfQW80QmtMaEllbG53IIEC", + bili_jct="9709211369ccff83737c4d1051b8c020", buvid3="0947A1E9-8546-982F-FAB4-641B8351905589064infoc", + dedeuserid="26985229") + + # 下面这个代码是用于根据关键词搜索,爬取各个视频弹幕,生成存储弹幕文件 + # bvid_list = sync(get_videos_info_by_keyword('2024巴黎奥运会')) + # generate_ass_files(bvid_list, credential) + time.sleep(10) + # 下面这个代码用于搜索和AI应用技术相匹配的弹幕语句,并生成相应的csv文件至词云图目录 + + file_path_list = get_file_path_list_in_directory(ASS_DIRECTORY_PATH) + ass_data = get_all_ass_data_list(ASS_DIRECTORY_PATH) + rtn_list = filter_statements_by_keywords(ass_data) + write_to_csv('弹幕.csv', rtn_list) # 这个函数用于生成存储弹幕.csv + write_list_to_txt_file(os.path.join(WORDCLOUD_DIRECTORY_PATH, 'text.txt'), rtn_list) # 这个函数用于生成存储最后匹配弹幕的文本文件