zxq/数据处理.py

import pandas as pd

# 读取数据
data = pd.read_csv("智联卓聘.csv")
print(type(data))

# 将城市这一列的所有是省-市的改为省
for i in data.index:
    if '-' in data.loc[i,'城市']:
        data.loc[i,'城市'] = data.loc[i,'城市'].split('-')[0]
data.to_csv("处理好城市后的数据.csv")

# 将公司类型这一列非公司类型的用无来代替
# 首先将所有的类型筛选出来
type = data["公司类型"].drop_duplicates().tolist()
li = ['民营', '外商独资', '其它','股份制企业', '上市公司', '事业单位', '国企','合资','国家机关', '港澳台公司']
# astype(str)将公司类型列的数据强制转换为字符串类型
data['公司类型']=data['公司类型'].astype(str)
for i in data.index:
    if data.loc[i,'公司类型'] not in li:
        data.loc[i,'公司类型'] = data.loc[i,'公司类型'].replace(data.loc[i,'公司类型'],'无')
data = data.drop(data[data['公司类型']=='无'].index)
data = data.drop(data[data['公司规模']=='民营'].index)
data.to_csv("处理好公司类型和规模后的数据.csv")

# 将招聘公司和职位名称那一列中有...的...删除
data['招聘公司']=data['招聘公司'].astype(str)
for i in data.index:
    if '...' in data.loc[i,'招聘公司']:
        data.loc[i, '招聘公司'] =  data.loc[i,'招聘公司'].replace('...','')
    if '...' in data.loc[i,'职位名称']:
        data.loc[i, '职位名称'] =  data.loc[i,'职位名称'].replace('...','')
data.to_csv("处理好...后的数据.csv")

# 首先将这一列数据的名称改为年薪
# 因为工资那一列有很多都是xx-xx万，为了在后续画图中方便，这种格式的一律统一成前面的那个数
index = ["职位名称","年薪(万)","学历要求","工作经验","招聘公司","公司类型","公司规模","城市","行业"]
data.columns = index
for i in data.index:
    if '-' in data.loc[i,'年薪(万)']:
        data.loc[i,'年薪(万)'] = data.loc[i,'年薪(万)'].split('-')[0]
data = data.drop(data[data['年薪(万)']=='面议'].index)
data.to_csv("处理好工资之后的数据.csv")

# 将学历要求为硕士和博士的行删除
d1 =data.drop(data[data['学历要求']=="硕士"].index)
d2 =d1.drop(data[data['学历要求']=="博士"].index)
d1.to_csv("最新数据.csv")

# print(d2.head())