diff --git a/README.md b/README.md deleted file mode 100644 index 39e7e60..0000000 --- a/README.md +++ /dev/null @@ -1,50 +0,0 @@ -# DD -import pandas as pd -import numpy as np -import matplotlib.pyplot as plt - -#读取数据 -data=pd.read_excel('./data/data.xlsx') -#查看数据基本信息 -#查看数据几行几列 -print(data.shape) -#查看索引 -print(data.index) -#查看数据每一列的列表头内容 -print(data.columns) -#查看每一列数据统计数目 -print(data.count()) -data.head() - -#异常值处理 -#筛选出海口市以外的数据 -df=data.loc[(data['county']>460108)|(data['county']<460105)] -df.head() -#保留海口市的数据 -data=data.loc[(data['county']<=460108)&(data['county']>=460105)] -print('筛选出异常值后',data.shape) - -#缺失值处理 -data.info() -print('删除缺失值前',data.shape) -data=data.dropna() -print('删除缺失值后',data.shape) - -#对列进行重命名 -data=data.rename(columns={'order_id':'订单编号','county':'区号','type':'订单类型','start_dest_distance':'预估距离','arrive_time':'司机到达时间','departure_time':'用户下单时间','pre_total_fee':'价格','normal_time':'时长','dest_lng':'终点经度','dest_lat':'终点纬度','starting_lng':'起点经度','starting_lat':'起点纬度','date':'日期'}) -data.head() - -#数据类型转换 -data['时长']=data['时长'].astype('int64') -data['预估距离']=data['预估距离'].astype('int64') -data['价格']=data['价格'].astype('int64') -data['日期']=data['日期'].astype('str') - -#查看数据类型 -data.info() - -#重置索引 -data=data.reset_index(drop=True) -data.head() - -