lin/pythonProject/豆瓣/豆瓣电影爬虫/删除重复项.py

import pandas as pd
import os


# 去重电影网站
def deduplication(folder_path, prefix_condition):
    # 初始化一个空的DataFrame，用于合并数据
    merged_df = pd.DataFrame()

    # 遍历文件夹中的所有文件
    for filename in os.listdir(folder_path):
        # 检查文件是否是Excel文件且文件名前两位是否符合条件
        if filename.endswith('.xlsx') and filename[:len(prefix_condition)] == prefix_condition:
            # 构建文件的完整路径
            file_path = os.path.join(folder_path, filename)

            # 读取Excel文件
            df = pd.read_excel(file_path, sheet_name='Sheet1')

            # 根据'电影网站'列删除重复行
            df = df.drop_duplicates(subset='电影网站')

            # 将读取的数据合并到merged_df中
            merged_df = pd.concat([merged_df, df], ignore_index=True)

    # 再次在合并后的DataFrame中删除重复项
    merged_df = merged_df.drop_duplicates(subset='电影网站')

    # 将合并后的数据写入新的Excel文件
    merged_df.to_excel(f'豆瓣电影网站/{prefix_condition}/{prefix_condition}电影网站(整合后).xlsx', sheet_name='Sheet1',
                       index=False)

    # merged_df.to_excel(f'豆瓣电影网站/全部电影(整合)/{prefix_condition}电影网站(整合后).xlsx', sheet_name='Sheet1',
    #                    index=False)
    print(f'整合完成文件为：{prefix_condition}电影网站(整合后).xlsx')


if __name__ == '__main__':
    # 使用函数，传入文件夹路径和匹配条件
    deduplication('.', '韩国')

# 单个文件去重复
# import pandas as pd  # 导入pandas库，并用pd作为别名，用于数据处理和分析
# from openpyxl import load_workbook  # 导入openpyxl库的load_workbook函数，用于处理Excel文件
#
# # 使用pandas的read_excel函数读取名为'新闻.xlsx'的Excel文件，并选择名为'Sheet1'的工作表
# df = pd.read_excel('新闻.xlsx', sheet_name='Sheet1')
#
# # 打印DataFrame df的列名，用于确认列标题和后续操作
# print(df.columns)
#
# # 根据'新闻链接'这一列的值删除重复的行，保留唯一的'新闻链接'
# df = df.drop_duplicates(subset='新闻链接')
#
# # 将处理后的DataFrame df写入名为'详情页网址.xlsx'的Excel文件，并选择名为'Sheet1'的工作表
# # index=False表示在写入时不包含DataFrame的索引列
# df.to_excel('详情页网址.xlsx', sheet_name='Sheet1', index=False)