Update README.md

master
p3lfrsqxg 3 years ago
parent a173567c08
commit d0faeb321f

@ -1,2 +1,50 @@
# DD
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#读取数据
data=pd.read_excel('./data/data.xlsx')
#查看数据基本信息
#查看数据几行几列
print(data.shape)
#查看索引
print(data.index)
#查看数据每一列的列表头内容
print(data.columns)
#查看每一列数据统计数目
print(data.count())
data.head()
#异常值处理
#筛选出海口市以外的数据
df=data.loc[(data['county']>460108)|(data['county']<460105)]
df.head()
#保留海口市的数据
data=data.loc[(data['county']<=460108)&(data['county']>=460105)]
print('筛选出异常值后',data.shape)
#缺失值处理
data.info()
print('删除缺失值前',data.shape)
data=data.dropna()
print('删除缺失值后',data.shape)
#对列进行重命名
data=data.rename(columns={'order_id':'订单编号','county':'区号','type':'订单类型','start_dest_distance':'预估距离','arrive_time':'司机到达时间','departure_time':'用户下单时间','pre_total_fee':'价格','normal_time':'时长','dest_lng':'终点经度','dest_lat':'终点纬度','starting_lng':'起点经度','starting_lat':'起点纬度','date':'日期'})
data.head()
#数据类型转换
data['时长']=data['时长'].astype('int64')
data['预估距离']=data['预估距离'].astype('int64')
data['价格']=data['价格'].astype('int64')
data['日期']=data['日期'].astype('str')
#查看数据类型
data.info()
#重置索引
data=data.reset_index(drop=True)
data.head()

Loading…
Cancel
Save