|
|
|
|
import pandas as pd
|
|
|
|
|
|
|
|
|
|
# 读取数据
|
|
|
|
|
data = pd.read_csv("智联卓聘.csv")
|
|
|
|
|
print(type(data))
|
|
|
|
|
|
|
|
|
|
# 将城市这一列的所有是省-市的改为省
|
|
|
|
|
for i in data.index:
|
|
|
|
|
if '-' in data.loc[i,'城市']:
|
|
|
|
|
data.loc[i,'城市'] = data.loc[i,'城市'].split('-')[0]
|
|
|
|
|
data.to_csv("处理好城市后的数据.csv")
|
|
|
|
|
|
|
|
|
|
# 将公司类型这一列非公司类型的用无来代替
|
|
|
|
|
# 首先将所有的类型筛选出来
|
|
|
|
|
type = data["公司类型"].drop_duplicates().tolist()
|
|
|
|
|
li = ['民营', '外商独资', '其它','股份制企业', '上市公司', '事业单位', '国企','合资','国家机关', '港澳台公司']
|
|
|
|
|
# astype(str)将公司类型列的数据强制转换为字符串类型
|
|
|
|
|
data['公司类型']=data['公司类型'].astype(str)
|
|
|
|
|
for i in data.index:
|
|
|
|
|
if data.loc[i,'公司类型'] not in li:
|
|
|
|
|
data.loc[i,'公司类型'] = data.loc[i,'公司类型'].replace(data.loc[i,'公司类型'],'无')
|
|
|
|
|
data = data.drop(data[data['公司类型']=='无'].index)
|
|
|
|
|
data = data.drop(data[data['公司规模']=='民营'].index)
|
|
|
|
|
data.to_csv("处理好公司类型和规模后的数据.csv")
|
|
|
|
|
|
|
|
|
|
# 将招聘公司和职位名称那一列中有...的...删除
|
|
|
|
|
data['招聘公司']=data['招聘公司'].astype(str)
|
|
|
|
|
for i in data.index:
|
|
|
|
|
if '...' in data.loc[i,'招聘公司']:
|
|
|
|
|
data.loc[i, '招聘公司'] = data.loc[i,'招聘公司'].replace('...','')
|
|
|
|
|
if '...' in data.loc[i,'职位名称']:
|
|
|
|
|
data.loc[i, '职位名称'] = data.loc[i,'职位名称'].replace('...','')
|
|
|
|
|
data.to_csv("处理好...后的数据.csv")
|
|
|
|
|
|
|
|
|
|
# 首先将这一列数据的名称改为年薪
|
|
|
|
|
# 因为工资那一列有很多都是xx-xx万,为了在后续画图中方便,这种格式的一律统一成前面的那个数
|
|
|
|
|
index = ["职位名称","年薪(万)","学历要求","工作经验","招聘公司","公司类型","公司规模","城市","行业"]
|
|
|
|
|
data.columns = index
|
|
|
|
|
for i in data.index:
|
|
|
|
|
if '-' in data.loc[i,'年薪(万)']:
|
|
|
|
|
data.loc[i,'年薪(万)'] = data.loc[i,'年薪(万)'].split('-')[0]
|
|
|
|
|
data = data.drop(data[data['年薪(万)']=='面议'].index)
|
|
|
|
|
data.to_csv("处理好工资之后的数据.csv")
|
|
|
|
|
|
|
|
|
|
# 将学历要求为硕士和博士的行删除
|
|
|
|
|
d1 =data.drop(data[data['学历要求']=="硕士"].index)
|
|
|
|
|
d2 =d1.drop(data[data['学历要求']=="博士"].index)
|
|
|
|
|
d1.to_csv("最新数据.csv")
|
|
|
|
|
|
|
|
|
|
# print(d2.head())
|