呆板练习有良众操纵,此中之一即是预测功夫序列。一个最风趣(或者能够是最赢利)的功夫序列是股票价钱。
此日,咱们用更苛谨的学术立场来治理这个题目。比如:挪动均匀、线性回归、KNN、Auto ARIMA和Prophet的预测限制为1年,而LSTM的预测限制为1天。正在极少着作有人说LSTM比咱们目前看到的任何算法都要增色。但很昭彰,咱们并不是comparing apples to apples here。
咱们的对象是利用前N天的数据(即预测限制= 1)预测Vanguard Total Stock Market ETF(VTI)的逐日调动收盘价 。咱们将利用VTI从2015年11月25日至2018年11月23日三年的史册价钱。可能从雅虎财经下载(),数据集如下:
将数据集分为60%教练集、20%验证集和20%测试集。利用教练集对模子举办教练,利用验证集对模子超参数举办调动,终末利用测试集对模子的机能举办测试。
为了评估咱们的方式的有用性,咱们将利用均方根差错(RMSE)和均匀绝对百分比差错(MAPE)举办胸怀。对待这两个目标,值越低,预测成就越好。
正在Last Value方式中,咱们将浅易地将预测扶植为终末一个观测值。这意味着咱们将此刻的复权收盘价扶植为前一天的复权收盘价。这是最具本钱效益的预测模子,平常用作比力更杂乱模子的基准。这里不需求调优超参数。
下图显示了利用Last Value方式的预测。若是你详尽侦查,你会发掘每一天的预测(红叉)仅仅是前一天的值(绿叉)。
正在挪动均匀法中,预测值将是前N个值的均匀值。这意味着咱们将此刻复权收盘价扶植为前N天复权收盘价的均匀值。需求调动超参数N。
下图映现了验证集上实质值和预测值之间的RMSE,对待区别的N值,咱们将利用N=2,由于它给出了最低的RMSE。
线性回归是对一个因变量和一个或众个自变量之间的闭联举办修模的一种线性方式。咱们正在这里利用线性回归的方式是将线性回归模子与之前的N个值举办拟合,并用这个模子预测此刻的值。下图是N=5的一个例子。实质复权收盘价显示为深蓝色的十字,咱们思要预测第6天的值(黄色方块)。咱们将通过前5个实质值拟合一条线性回归线(浅蓝色线天的预测(浅蓝色圆)。
下图显示了验证集的实质值和预测值之间的RMSE,对待N的区别值,咱们将利用N=5,由于它给出了最低的RMSE。
下图显示了线性回归方式的预测结果。可能侦查到,该方式不行很好地缉捕倾向的蜕化(即降低到上升趋向,反之亦然)。
XGBoost是以迭代的格式将弱练习者转化为强练习者的进程。自2014年推出从此,XGBoost已被证据是一种额外巨大的呆板练习算法,平常是很众呆板练习竞赛中的首选算法。
咱们将正在教练聚集教练XGBoost模子,利用验证集优化其超参数,终末正在测试聚集操纵XGBoost模子并陈述结果。利用的明显特性是过去N天的复权收盘价,以及过去N天的成交量。除了这些特性,咱们还可能做极少特性工程。咱们将构修的其他效力囊括:
正在构修这个模子的进程中,学到了一个风趣的事变,那即是特性缩放对待模子的寻常职业好坏常紧急的。咱们的第一个模子基础没有完毕任何伸缩,下面的图显示了对验证集的预测。模子教练的是89到125之间的复权收盘价,于是模子只可输出这个限制内的预测。当模子试图预实验证集而且它看到越过了这个限制时,它不行很好地拓展利用。
接下来试验将教练集周围缩放为均值0和方差1,而且正在验证集上操纵了相像的变换。但彰着这不会起功用,由于正在这里咱们利用从教练集企图的均值和方差来转换验证集。因为来自验证集的值巨大于来自列车集的值,于是正在缩放后,值仍将更大。结果是预测仍旧如上所述,只是缩放了y轴上的值。
终末,将序列会合的均值缩放为0,方差为1,然后用这个来教练模子。随后,当对验证集举办预测时,对每个样本的每个特性组举办缩放,使其均值为0,方差为1。比如,若是咱们对第T天举办预测,我将取比来N天(T-N到T-1)的复权收盘价,并将其缩放为均值为0,方差为1。成交量特性也是相通的,我取前N天的成交量,将其缩放为均值为0,方差为1。利用与其他特性相像的操作。然后咱们利用这些缩放的特性来做预测。预测值也会被缩放,咱们用它们对应的均值和方差举办逆变换。发掘这种扩展格式供应了最好的机能,如下所示。
下图显示了验证集上实质值和预测值之间的RMSE,对待区别的N值,咱们将利用N=3,由于它给出了最低的RMSE。
LSTM是一种深度练习模子,用于治理长序列中的梯度消散题目。LSTM有三个门:更新门、遗忘门和输出门。更新和健忘门决意是否更新单位的每个元素。输出门决意了行动下一层的激活而输出的消息量。
下面咱们将利用LSTM机闭。利用两层LSTM模块并正在其间扶植一个drop-layer以避免太过拟合。
咱们将利用与XGBoost中相像的方式来缩放数据集。验证集调优前后LSTM收集的超参数和机能如下所示:
下面,咱们正在统一张图绘制上面利用的统统方式。很昭彰,利用线性方式的预测最差。除此除外,从视觉上很难决断哪种方式供应了最好的预测。
下面是咱们所研商的种种方式的RMSE和MAPE的并列比力。咱们看到last value给出了最低的RMSE和MAPE,然后是XGBoost,然后是LSTM。风趣的是,浅易的last value方式优于统统其他更杂乱的方式,但这很能够是由于咱们的预测限制只要1。对待较长的预测限制,咱们以为其他方式比last value更能逮捕趋向和时令性。
加入新手交流群:每天早盘分析、币种行情分析
添加助理微信,一对一专业指导:chengqing930520
上一篇:大秦铁路(601006)股票价格_行情_走势图—东方财富网
加入新手交流群:每天早盘分析、币种行情分析,添加助理微信
一对一专业指导:chengqing930520
最新资讯