diff --git a/README.md b/README.md index fec6c90..39e7e60 100644 --- a/README.md +++ b/README.md @@ -1,2 +1,50 @@ # DD +import pandas as pd +import numpy as np +import matplotlib.pyplot as plt + +#读取数据 +data=pd.read_excel('./data/data.xlsx') +#查看数据基本信息 +#查看数据几行几列 +print(data.shape) +#查看索引 +print(data.index) +#查看数据每一列的列表头内容 +print(data.columns) +#查看每一列数据统计数目 +print(data.count()) +data.head() + +#异常值处理 +#筛选出海口市以外的数据 +df=data.loc[(data['county']>460108)|(data['county']<460105)] +df.head() +#保留海口市的数据 +data=data.loc[(data['county']<=460108)&(data['county']>=460105)] +print('筛选出异常值后',data.shape) + +#缺失值处理 +data.info() +print('删除缺失值前',data.shape) +data=data.dropna() +print('删除缺失值后',data.shape) + +#对列进行重命名 +data=data.rename(columns={'order_id':'订单编号','county':'区号','type':'订单类型','start_dest_distance':'预估距离','arrive_time':'司机到达时间','departure_time':'用户下单时间','pre_total_fee':'价格','normal_time':'时长','dest_lng':'终点经度','dest_lat':'终点纬度','starting_lng':'起点经度','starting_lat':'起点纬度','date':'日期'}) +data.head() + +#数据类型转换 +data['时长']=data['时长'].astype('int64') +data['预估距离']=data['预估距离'].astype('int64') +data['价格']=data['价格'].astype('int64') +data['日期']=data['日期'].astype('str') + +#查看数据类型 +data.info() + +#重置索引 +data=data.reset_index(drop=True) +data.head() +