data/washData.py

import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
import tkinter as tk
from tkinter import filedialog

import os
os.environ['JAVA_HOME'] = "D:\jdk\jdk-17.0.8"   # 记得把地址改成自己的

selected_file_path = ""
# 打开选择文件函数
def select_and_open_excel_file():
    # 创建主窗口
    root = tk.Tk()

    def on_button_click():
        global  selected_file_path
        # 调用文件选择对话框
        file_path = filedialog.askopenfilename(
            title="选择Excel文件",
            filetypes=[("Excel files", "*.xlsx;*.xls"), ("All files", "*.*")]
        )

        # 用户取消选择，file_path 为空
        if not file_path:
            print("用户取消选择文件")
            return

        # 这里可以使用 file_path 来获取选择的 Excel 文件路径
        print("选择的Excel文件路径:", file_path)
        selected_file_path = file_path
        root.destroy()
    # 创建按钮
    button = tk.Button(root, text="选择文件", command=on_button_click)
    button.pack(pady=20)

    # 进入主循环
    root.mainloop()

# 调用函数
select_and_open_excel_file()

print(selected_file_path)

# 读取Excel文件
excel_data = pd.read_excel(selected_file_path)

# 将数据写入CSV文件
excel_data.to_csv("excel_data.csv", index=False)

# 创建Spark会话
spark = SparkSession.builder.appName("ExcelDataCleaning").getOrCreate()

# 读取CSV文件为DataFrame
df = spark.read.csv("excel_data.csv", header=True, inferSchema=True)

# 创建一个新列作为行号
df = df.withColumn("row_id", F.monotonically_increasing_id())

# 过滤掉行号为1的行，即第二行
df_without_second_row = df.filter(df.row_id != 1).drop("row_id")
df = df_without_second_row.filter(df.row_id != 0).drop("row_id")

# 需要的列名
df = df.select('序号', '地址', '企业注册地址', '营业收入', '净利润', '其中：研发、试验检验费', '其中：技术（研究）开发费', '其中：技术收入', '其中：技术转让收入',
               '技术承包收入', '技术咨询与服务收入', '年末资产总计', '主要业务活动或主要产品1', '主要外资来源国别或地区代码', '企业注册地是否在国家高新区内',
               '企业主要生产经营活动是否在国家高新区内', '其中：支付科研人员的工资及福利费','营业成本')

# 输出列名
print(df.columns)

# 删除'地址'列为'qingxiubgs2014@sina.com'或null的行
df = df.filter((F.col('地址') != 'qingxiubgs2014@sina.com') & (F.col('地址').isNotNull()))

# 填充某列空值
df = df.fillna({'主要业务活动或主要产品1': '无'})
df = df.fillna({'主要外资来源国别或地区代码': '0'})
df = df.fillna({'其中：技术收入': '0'})

# 去除重复项
df = df.dropDuplicates()

# 根据序号排序
df = df.withColumn('序号', F.round(F.col('序号')).cast('integer'))
df = df.orderBy('序号')

# 将Spark DataFrame转换为Pandas DataFrame
pd = df.toPandas()

# 将Pandas DataFrame保存为CSV文件
pd.to_csv('washData.csv', index=False)