parent
a173567c08
commit
d0faeb321f
@ -1,2 +1,50 @@
|
||||
# DD
|
||||
import pandas as pd
|
||||
import numpy as np
|
||||
import matplotlib.pyplot as plt
|
||||
|
||||
#读取数据
|
||||
data=pd.read_excel('./data/data.xlsx')
|
||||
#查看数据基本信息
|
||||
#查看数据几行几列
|
||||
print(data.shape)
|
||||
#查看索引
|
||||
print(data.index)
|
||||
#查看数据每一列的列表头内容
|
||||
print(data.columns)
|
||||
#查看每一列数据统计数目
|
||||
print(data.count())
|
||||
data.head()
|
||||
|
||||
#异常值处理
|
||||
#筛选出海口市以外的数据
|
||||
df=data.loc[(data['county']>460108)|(data['county']<460105)]
|
||||
df.head()
|
||||
#保留海口市的数据
|
||||
data=data.loc[(data['county']<=460108)&(data['county']>=460105)]
|
||||
print('筛选出异常值后',data.shape)
|
||||
|
||||
#缺失值处理
|
||||
data.info()
|
||||
print('删除缺失值前',data.shape)
|
||||
data=data.dropna()
|
||||
print('删除缺失值后',data.shape)
|
||||
|
||||
#对列进行重命名
|
||||
data=data.rename(columns={'order_id':'订单编号','county':'区号','type':'订单类型','start_dest_distance':'预估距离','arrive_time':'司机到达时间','departure_time':'用户下单时间','pre_total_fee':'价格','normal_time':'时长','dest_lng':'终点经度','dest_lat':'终点纬度','starting_lng':'起点经度','starting_lat':'起点纬度','date':'日期'})
|
||||
data.head()
|
||||
|
||||
#数据类型转换
|
||||
data['时长']=data['时长'].astype('int64')
|
||||
data['预估距离']=data['预估距离'].astype('int64')
|
||||
data['价格']=data['价格'].astype('int64')
|
||||
data['日期']=data['日期'].astype('str')
|
||||
|
||||
#查看数据类型
|
||||
data.info()
|
||||
|
||||
#重置索引
|
||||
data=data.reset_index(drop=True)
|
||||
data.head()
|
||||
|
||||
|
||||
|
||||
Loading…
Reference in new issue