import pandas as pd import os # 去重电影网站 def deduplication(folder_path, prefix_condition): # 初始化一个空的DataFrame,用于合并数据 merged_df = pd.DataFrame() # 遍历文件夹中的所有文件 for filename in os.listdir(folder_path): # 检查文件是否是Excel文件且文件名前两位是否符合条件 if filename.endswith('.xlsx') and filename[:len(prefix_condition)] == prefix_condition: # 构建文件的完整路径 file_path = os.path.join(folder_path, filename) # 读取Excel文件 df = pd.read_excel(file_path, sheet_name='Sheet1') # 根据'电影网站'列删除重复行 df = df.drop_duplicates(subset='电影网站') # 将读取的数据合并到merged_df中 merged_df = pd.concat([merged_df, df], ignore_index=True) # 再次在合并后的DataFrame中删除重复项 merged_df = merged_df.drop_duplicates(subset='电影网站') # 将合并后的数据写入新的Excel文件 merged_df.to_excel(f'豆瓣电影网站/{prefix_condition}/{prefix_condition}电影网站(整合后).xlsx', sheet_name='Sheet1', index=False) # merged_df.to_excel(f'豆瓣电影网站/全部电影(整合)/{prefix_condition}电影网站(整合后).xlsx', sheet_name='Sheet1', # index=False) print(f'整合完成文件为:{prefix_condition}电影网站(整合后).xlsx') if __name__ == '__main__': # 使用函数,传入文件夹路径和匹配条件 deduplication('.', '韩国') # 单个文件去重复 # import pandas as pd # 导入pandas库,并用pd作为别名,用于数据处理和分析 # from openpyxl import load_workbook # 导入openpyxl库的load_workbook函数,用于处理Excel文件 # # # 使用pandas的read_excel函数读取名为'新闻.xlsx'的Excel文件,并选择名为'Sheet1'的工作表 # df = pd.read_excel('新闻.xlsx', sheet_name='Sheet1') # # # 打印DataFrame df的列名,用于确认列标题和后续操作 # print(df.columns) # # # 根据'新闻链接'这一列的值删除重复的行,保留唯一的'新闻链接' # df = df.drop_duplicates(subset='新闻链接') # # # 将处理后的DataFrame df写入名为'详情页网址.xlsx'的Excel文件,并选择名为'Sheet1'的工作表 # # index=False表示在写入时不包含DataFrame的索引列 # df.to_excel('详情页网址.xlsx', sheet_name='Sheet1', index=False)