|
|
# -*- coding: utf-8 -*-
|
|
|
|
|
|
###############################################################################
|
|
|
####################### 任务实现 ########################
|
|
|
###############################################################################
|
|
|
# 代码 8-3这段代码的主要功能是使用灰色预测模型对时间序列数据进行预测,并将结果保存到 Excel 文件中。以下是代码的逐步解析:
|
|
|
import numpy as np
|
|
|
import pandas as pd
|
|
|
from GM11 import GM11 # 引入自编的灰色预测函数
|
|
|
|
|
|
# 输入的数据文件
|
|
|
inputfile = './new_reg_data.csv'
|
|
|
inputfile1 = './data.csv'
|
|
|
new_reg_data = pd.read_csv(inputfile) # 读取经过特征选择后的数据
|
|
|
data = pd.read_csv(inputfile1) # 读取总的数据
|
|
|
|
|
|
# 设置索引
|
|
|
new_reg_data.index = range(1994, 2014)
|
|
|
new_reg_data.loc[2014] = None
|
|
|
new_reg_data.loc[2015] = None
|
|
|
|
|
|
# 需要预测的列
|
|
|
l = ['x1', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x13']
|
|
|
outputfile = './new_reg_data_GM11.xlsx'
|
|
|
y = list(data['y'].values) # 提取财政收入列,合并至新数据框中
|
|
|
y.extend([np.nan, np.nan]) # 添加2014和2015年对应的NaN值
|
|
|
|
|
|
for i in l:
|
|
|
f = GM11(new_reg_data.loc[range(1994, 2014), i].values)[0]
|
|
|
new_reg_data.loc[2014, i] = f(len(new_reg_data) - 1) # 2014年预测结果
|
|
|
new_reg_data.loc[2015, i] = f(len(new_reg_data)) # 2015年预测结果
|
|
|
new_reg_data[i] = new_reg_data[i].round(2) # 保留两位小数
|
|
|
|
|
|
# 使用 .xls 扩展名
|
|
|
new_reg_data['y'] = y # 添加财政收入列到new_reg_data
|
|
|
new_reg_data.to_excel(outputfile, index=True) # 结果输出,索引列也写入
|
|
|
# 显示预测结果
|
|
|
print('预测结果为:', new_reg_data.loc[2014:2015, :]) # 预测结果展示
|
|
|
|
|
|
|
|
|
|
|
|
# 代码 8-4
|
|
|
# 利用灰色预测的输出,进一步应用 SVR 模型进行建模与预测,并将结果进行保存
|
|
|
import pandas as pd
|
|
|
import numpy as np
|
|
|
from sklearn.svm import LinearSVR
|
|
|
import matplotlib.pyplot as plt
|
|
|
from sklearn.metrics import explained_variance_score,\
|
|
|
mean_absolute_error,mean_squared_error,\
|
|
|
median_absolute_error,r2_score
|
|
|
# inputfile = '../tmp/new_reg_data_GM11.xls' #灰色预测后保存的路径
|
|
|
inputfile = './new_reg_data_GM11.xlsx' #灰色预测后保存的路径
|
|
|
data = pd.read_excel(inputfile,index_col=0) #读取数据
|
|
|
feature = ['x1', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x13']
|
|
|
data_train = data.loc[range(1994,2014)].copy()#取2014年前的数据建模
|
|
|
data_mean = data_train.mean()
|
|
|
data_std = data_train.std()
|
|
|
data_train = (data_train - data_mean)/data_std #数据标准化
|
|
|
# 计算数据的均值和标准差,然后对数据进行标准化处理,使其均值为0,标准差为1。
|
|
|
# 特征数据和标签数据
|
|
|
x_train = data_train[feature].values # 使用 .values 替代 .as_matrix()
|
|
|
y_train = data_train['y'].values # 使用 .values 替代 .as_matrix()
|
|
|
# 创建 SVR 模型实例,并使用训练数据进行拟合。
|
|
|
linearsvr = LinearSVR() #调用LinearSVR()函数
|
|
|
linearsvr.fit(x_train,y_train)
|
|
|
# 将数据再次进行标准化,然后用模型进行预测,并将预测值还原到原始尺度上(解标准化)。
|
|
|
x = ((data[feature] - data_mean[feature])/ \
|
|
|
# data_std[feature]).as_matrix() #预测,并还原结果。
|
|
|
data_std[feature]).values #预测,并还原结果。
|
|
|
data[u'y_pred'] = linearsvr.predict(x) * \
|
|
|
data_std['y'] + data_mean['y']
|
|
|
## SVR预测后保存的结果
|
|
|
# outputfile = '../tmp/new_reg_data_GM11_revenue.xls'
|
|
|
outputfile = './new_reg_data_GM11_revenue.xlsx'
|
|
|
data.to_excel(outputfile)
|
|
|
print('真实值与预测值分别为:',data[['y','y_pred']])
|
|
|
|
|
|
print('预测图为:',data[['y','y_pred']].plot(subplots = True,
|
|
|
style=['b-o','r-*']))
|
|
|
# 绘制真实值与预测值在同一个图形中
|
|
|
# 为确保中文标题能正常显示
|
|
|
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] # 替换为可以显示中文的字体
|
|
|
plt.rcParams['axes.unicode_minus'] = False # 确保负号显示正常
|
|
|
ax = data[['y', 'y_pred']].plot(style=['r-o', 'b-*'], figsize=(10, 5))
|
|
|
plt.title('真实值与预测值对比') # 添加标题
|
|
|
plt.xlabel('时间') # 添加x轴标签
|
|
|
plt.ylabel('值') # 添加y轴标签
|
|
|
|
|
|
# 添加图例,明确哪条线是哪个
|
|
|
plt.legend(['真实值', '预测值']) # 添加图例
|
|
|
plt.show() # 显示图形
|
|
|
|