|
|
3 years ago | |
|---|---|---|
| README.md | 3 years ago | |
| 数据预处理.docx | 3 years ago | |
| 滴滴出行城市运营数据分析.docx | 3 years ago | |
README.md
DD
import pandas as pd import numpy as np import matplotlib.pyplot as plt
#读取数据 data=pd.read_excel('./data/data.xlsx') #查看数据基本信息 #查看数据几行几列 print(data.shape) #查看索引 print(data.index) #查看数据每一列的列表头内容 print(data.columns) #查看每一列数据统计数目 print(data.count()) data.head()
#异常值处理 #筛选出海口市以外的数据 df=data.loc[(data['county']>460108)|(data['county']<460105)] df.head() #保留海口市的数据 data=data.loc[(data['county']<=460108)&(data['county']>=460105)] print('筛选出异常值后',data.shape)
#缺失值处理 data.info() print('删除缺失值前',data.shape) data=data.dropna() print('删除缺失值后',data.shape)
#对列进行重命名 data=data.rename(columns={'order_id':'订单编号','county':'区号','type':'订单类型','start_dest_distance':'预估距离','arrive_time':'司机到达时间','departure_time':'用户下单时间','pre_total_fee':'价格','normal_time':'时长','dest_lng':'终点经度','dest_lat':'终点纬度','starting_lng':'起点经度','starting_lat':'起点纬度','date':'日期'}) data.head()
#数据类型转换 data['时长']=data['时长'].astype('int64') data['预估距离']=data['预估距离'].astype('int64') data['价格']=data['价格'].astype('int64') data['日期']=data['日期'].astype('str')
#查看数据类型 data.info()
#重置索引 data=data.reset_index(drop=True) data.head()