姜禄彬
o
.4.22
前言
宁毅从迷迷糊糊中醒过来,看见的是白色的蚊帐,头上隐隐作痛,不知道这是穿越了怎样的环境里,于是闭上眼睛想了很久,才微微叹了口气。
现在的身份也大概清楚了,他穿越前叫唐明远,现在叫宁毅,字立恒,目前是武朝江宁富商苏家的一名上门女婿,说起来这个身份有点不光彩,但既然是了,也没有办法,而即便是入赘,其中的情况,这几天看起来,也实在有些复杂。
苏家是江宁有名的富商之一,如今执掌苏家的大房苏伯庸膝下无子,只有一个女儿名叫苏檀儿,对于自己的这个妻子,他目前还没有看见过,据说结婚那天苏家有一批布料出了问题,苏檀儿跑去解决,简单来说,看得出她对这场婚姻的不认同,算是逃婚了。
至于自己,也就是宁毅,据说爷爷那辈与如今苏家太公的关系很铁,说好指腹为婚谁知道生出来都是男的,于是指腹为婚的约定传下来,宁毅的家里却因为意外没落了,到了宁毅,父母双亡,他虽然读了些书,说起来是个文人,但实际上的才学怕也没什么,就是人老实,被苏太公看上当成了上门女婿,宁毅当初是不是愿意,是不是被强迫的他现在是无法追溯了,只是对他入赘的这件事似乎也有好些人不愿意。然后,据说是一位也对苏檀儿有兴趣的富家子弟暗中敲了他一板砖,让他昏迷了好几天才醒过来。
宁毅的头上缠着绷带,还隐隐有些痛,他推开房门,明媚的阳光便射了进来,令他下意识地伸手遮挡了一下,这是木制楼房的二楼上,从门口看出去,下方、远远仅仅是一个个鳞次栉比的院落与园林,分布的各种楼房,苏杭风格的园林建筑、池塘与山石,美轮美奂地在眼前延伸开去。
他有些惫懒地拿起了丫鬟手上拿着的似乎是给他穿的袍子,展开之后,有些郁闷:“这东西怎么穿?”“姑、姑爷,我帮你……”那丫鬟连忙开始替他穿那袍子,一边穿,那丫鬟还朝下方喊着:“姑爷醒来了,姑爷醒来了……”于是,更多的人,开始从各个院子里过来了。
接下来几天他又见过了许多苏家人,苏太公也见了一次,情况复杂,但在他来说,也是一眼就看了出来。苏太公的身体很好,如今也是苏家真正的掌权者,都说三代看吃四代看穿五代看文章,如今苏家到苏檀儿与她的几个兄弟也算富到第五代,但情况明显良莠不齐,最争气的于经商最有天赋的,反倒是作为女儿身的苏檀儿。
如果那些大哥二哥之类的厉害一点,如果苏檀儿不是大房的女儿,如果苏檀儿没有经商的天赋和心情,或许一切情况就会不一样,但现在,苏家太公明显是将苏檀儿当成了接班人来培养,之所以选择自己这样的一个上门女婿,或者有几分上代情谊在其中,但最主要的,恐怕还是看准以前的宁毅够老实,别人轻而易举就能压得住。
也是因此,他这个上门女婿的地位,其余几房自然是不高兴的,这些人以前就热衷于给苏檀儿介绍对象,只希望某个富家公子娶走她让她成了泼出去的水,就对这个家庭什么威胁都没有,谁知道苏太公抓住一个指腹为婚的约定强行找了个上门女婿过来,他自然就成了旁人的眼中钉,那天晚上被敲的一板砖,是不是旁人做的,怕还是难说得紧。
宁毅想起上辈子的事情。股票市场,商场暗战,勾心斗角,他那一辈子的时间似乎都用在了这些事情上面,直到建立起巨大的商业帝国,却还是提防着内斗,但最后还是被自己的兄弟摆了一道,干掉了。如今再看见这些事情,不由得就觉得好笑,真的是不想再接触这些东西了啊,何况还是这样的小打小闹。
弄清楚该弄清的事情,攒点银子,就离开吧,他这样想着,虽然对目前的他来说对于当上门女婿也没什么概念,不怎么在意这种名分上的事情,但时刻被人盯着,似乎也有些不爽。
宁毅穿越前最早是在证券公司工作,武朝也有股票市场,不过还很年轻,只有20多年的历史,但是苏太公却很重视财富管理这块的业务,要求各房都安心努力学习。宁毅心想,不管苏檀儿何时回来,先抓紧恢复前世的股票投研修为,赚点银子才是正经。
苏家各房都有自己的投资体系,有买低估值股票的,有买成长股的,常互相争执,苏太公为此烦心不已,每月底都开一次家族会议统一投资观点。宁毅静下心来,他前世在米国和兔国的证券市场都学过,当时的股票大师叫利弗莫尔和巴菲特,还有些获得过诺贝尔经济学奖的学者去研究股票市场的论文特征。
想着想着,宁毅让丫鬟先出去,他点起了一支香,冥想了起来。前世的记忆又开始浮现,米国和兔国的证券市场里是可以用低估值SAS代码与FAMA三因子模型Python代码来总结概括股票市场金融数学模型的,显然这个规律也同样可以用在武朝股市。丫鬟又敲门轻声告诉宁毅,苏檀儿几天后快要回来了,宁毅点点头,前世的回忆慢慢在脑海中浮现出来。
正文
宁毅前世时,米国著名基金经理利弗莫尔在《股票作手回忆录》P中讲道他曾经买过一只股票叫做帝国钢材,在年代的华尔街,这只股票低于账面价值,PB大约为0.7,成交很低迷,利弗莫尔将这只股票成功从70元炒到了元。帝国钢材的股东方是当时一家著名的银行,这家银行认为帝国钢材的资产很有价值,聘请了更多专家对帝国钢材的资产做出了彻底的评估,认为公司业务繁荣,前景也大好。
帝国钢材在股价为70元时曾经无人理会,然而现在,大家都很想在美元的价位买进,为什么?涨势就在那儿,现在人人都知道这是支好股,之前以及现在买都很划算。很多人都认为:它既然能从70点涨到点,就能从票面的点再涨30个点。
这就是利弗莫尔当时所处的时代,股票价格会在一个区间范围内震荡。在今天的大学金融变成课堂上,他可以用时间序列分析的方法来找到股票价格沿趋势线运动时的买入和卖出值。这就是低估值法的SAS代码背后的原理。
这篇文章中主要参考了愤怒的香蕉《赘婿》;高惠璇的《SAS系统与股票市场分析》第十一章“时间序列数据的建模与预测”P-;第十二章“用交叉模式产生交叉信号”P-;埃德加.彼得斯的《分形市场分析》中检验R/S分析P63-81,P-;简.菲利普.鲍查德在《金融风险理论:从统计物理到风险管理》P61。
有几个A股指数与时间序列分析在理论上的结论:
第一个结论:总体而言,我们认为经过了分形几何处理后,A股指数应当符合ARIMA(1,1,0)过程。
第二个结论:赫斯特指数对于20日收益是最显著的,而对于逐日收益,尽管不是不显著,显著性却差得多。这意味着20日均线作为均值进行回归,从长期来看是效果最好的。
第三个结论:超出30分钟后,股票价格两点相关函数非常接近于零。然而,对流动性较差的市场,这个相关时间要长得多。例如,在20世纪60年代和70年代的美国股票市场上,这种相关时间显著减少。这说明,A股指数运用分形几何的最优分析数据应当为30分钟级别K线。
本文最重要的内容是第六部分,这一部分中用更长的数据来展示时间序列ARIMA(1,1,0)模型,同时作带形移动平均图(越过下轨产生一个卖出信号,越过上轨产生一个买入信号),通过这种方式,我们就能找到A股指数的上轨和下轨,从而确定买入卖出信号。
CONTENT
目录
第一部分、寻找到股票价格变化最优的时间序列模型
第二部分、转换序列变平稳,对于原始数据进行了一阶差分
第三部分、利用PROCARIA建模和预测(运用PROCARIMA建立(0,1,0)(1,1,0)(0,1,1)(1,1,1)等五种不同的时间序列分析模型并比较其优劣)
第四部分、利用ARIMA(1,1,0)模型预测
第五部分、利用干预模型建模和预测(股票实际价值偏离了时间序列分析模型,95%置信区间时的情况)
第六部分、用更长的数据来展示时间序列ARIMA(1,1,0)模型,并作带形移动平均图
01
ONE
寻找到股票价格变化最优的时间序列模型
1.1、导入数据
我们将A股指数30分钟数据图,进行了数学分形几何处理,从而计算得到高低点。
1.2、评估平稳性(参考高惠璇《SAS系统与股票市场分析》P-)
1.2.1、数据图(这里的29jun20仍为29jun20,09sep20相当于11dec20,其中A股指数数据均在点到点之间)
结果解释:上图数据范围在-之间,从平均意义上讲,上图表明A股指数收盘价格是不平稳的。这点可以从平均值随时间一直在变化看出。例如:由序列前半部分计算的平均值与第二部分计算的平均不尽相同。
1.2.2、ACF图和白噪声检验(这里的29jun20仍为29jun20,09sep20相当于11dec20)
1、拒绝白噪声假设。白噪声的自相关检查(序列的随机波动)是由卡方统计量(即Q统计量)来实现的。这里的p值小于.,这意味着p值小于.,说明模型扰动项
中的一系列不是白噪声,不独立同分布,因此需要引入MA过程。
此处,如果卡方统计量(即Q统计量)的p值大于.05,那么,对任意给定的滞后,均假设对于移动平均系统来说,如果系统在t时刻的响应Xt与其前一时刻进入系统的扰动at-1没有一定的相关关系,而且与at-2也没有存在一定的依存关系。这种情况下,时间序列模型的残差(扰动项)是符合白噪声。
2、ACF缓慢递减至0,数据不平稳。具体解释是,时间序列的ACF缓慢减小为0,且滞后一直到7的自相关系数比两倍标准差大,可以得出结论∶时间序列是不平稳的,在估计时间序列模型之前应先转换为平稳的时间序列。一般地,下一步是要计算序列的一阶差分,并估计一阶差分的平稳性。
1.2.3、单位根检验(最好的对于时间序列分析数据是否稳定性的检验)
(这里的29jun20仍为29jun20,09sep20相当于11dec20)
结果解释:DLAG_V的P值大于0.05,接受原假设,存在单位根。具体解释:在上表中,DLAG_V的估计系数为-89.34,Dickey-Fuller检验统计量的p值为0.,暗示了在.05显著水平下不能拒绝零假设(有单位根),从检验结果可知,时间序列数据是不平稳的。
02
TWO
转换序列变平稳,对于原始数据进行了一阶差分
2.1、ACF图和单位根(ProcArima)(这里的29jun20仍为29jun20,09sep20相当于11dec20)
结果解释:我们注意到进行了一阶差分后,卡方统计量(即Q统计量)的p值实际上仍然小于.05,那么,对任意给定的滞后εt-q,均假设对于移动平均系统来说,如果系统在t时刻的响应Xt与其前一时刻进入系统的扰动at-1没有一定的相关关系,而且与at-2也没有存在一定的依存关系。这种情况下,时间序列模型的残差(扰动项)是不符合白噪声的。
在这个过程里,只要进行了一阶差分,则我们不再考虑时间序列模型里面白噪声的影响。
2.2、单位根检验
结果解释∶上表中,DLAG_V的估计系数为-0.,Dickey-Fuller检验统计量的p值为0.3404,由于P值小于0.05,这意味着零假设(有一个单位根)在.05显著水平上可以拒绝。从上述检验结果可知,SH00指数收盘价格一阶差分序列是平稳的。
2.3、产生可观察时间序列值Yt的时间序列模型理论部分,包括∶AR模型、MA模型、ARIMA模型
我们在现连载第篇《时间序列分析中的ARIMA、ARCH与GARCH》中探讨了很多时间序列模型,具体如下:
2.3.1、AR(p)模型的定义(AutoRegressionModel自回归模型)
具有如下结构的模型称为p阶自回归模型,简记为AR(p)。
即在t时刻的随机变量Xt的取值xt是前p期xt-1,xt-2,…,xt-p的多元线性回归,认为xt主要是受过去p期的序列值的影响。误差项是当期的随机干扰εt,为零均值白噪声序列。
王振龙的《应用时间序列分析》P28-34中讲道,我们所说的AR(1)模型,用记忆性来说,就是最短的记忆,即一期记忆,也就是一阶动态性。描述这种关系的数学模型就是一阶自回归模型,即Xt=φ1Xt-1+at,记作AR(1)。其中,Xt为零均值(即中心化处理后的)平稳序列,φ1为Xt对Xt-1的依赖程度,at为随机扰动。
对于AR这个自回归系统来说,当Xt不仅与前期Xt-1有关,而且与Xt-2相关时,显然,AR(1)模型就不再是适应模型了,AR(2)模型是由三个部分组成的:第一部分是依赖于Xt-1部分,用φ1Xt-1表示;第二部分是依赖于Xt-2部分,用φ2Xt-2表示;第三部分是独立于前两部分的白噪声at,可以等价表示为at=Xt-φ1Xt-1-φ2Xt-2。可见,AR(2)系统的响应Xt具有二阶动态性。
因此我们知道,利用时间序列前期数值的相关系数,这里所提及的关系时间数值自变量前后的自相关,通过建立一个包含前后期数值的自变量回归方程,说的更直白一些就是第t个时间序列由x1,x2…xt-1建立方程获取
ak表示在第k个时间序列自回归系数;uk为第k个时间序列的白噪声,白噪声我们可以理解为时间序列数值的随机波动,举个例子可能更容易理解,工厂中生成某一个口径为A零件,但是零件的尺寸的口径会在A数值上上下波动,这个误差不会很大,可能比A大也可能比A小,总体而言μ1+μ2+?+μt≈0
如果以上的说法还是让人不解,那我们看看简单的2阶自回归的AR(2)的表达式
现在应该比较清楚AR(p)模型了,p为1时就为AR(1),p为2就为AR(2)。综上所述,如果发现某个时间中列满足p阶自回归方程那么用AR模型即可做预则,该模型能够量化当前数据与前期数据之间的关系。
2.3.2、MA模型的定义(MovingAverageModel移动平均模型)
具有如下结构的模型称为q阶移动平均模型,简记为MR(q)
即在t时刻的随机变量Xt的取值是前q期的随机扰动εt-1,εt-2,…,εt-q的多元线性函数,误差项是当期的随机干扰εt,为零均值白噪声序列,μ是序列{Xt}的均值,认为{Xt}主要是受过去q期的误差项的影响。
平稳MA(q)型的性质见下表
建模的目的在于找出过去几期的白噪声影响了当前值,找出过去q期冲击效应对当前值的影响
在模型特征方面:趋势性(无)、相关性(有)、随机性(有)
王振龙的《应用时间序列分析》P34-35中讲道,对于一个MA系统来说,如果系统的响应Xt仅与其前一时刻进入系统的扰动at-1存在一定的相关关系,我们就得到模型Xt=at-θ1at-1,其中,at为白噪声。显而易见,这是一个一阶移动平均模型,简记为MA(1)。可见MA(1)模型的基本假设为:系统的响应Xt仅与其前一时刻进入系统的扰动at-1有一定的依存关系,而且at为白噪声。
对于移动平均系统来说,如果系统在t时刻的响应Xt不仅与其前一时刻进入系统的扰动at-1有一定的相关关系,而且与at-2也存在一定的依存关系。如果针对这种情形拟合MA模型,则得Xt=at-θ1at-1-θ2at-2,这就是MA(2)模型。MA(2)模型与MA(1)模型相类似,其基本假设为:Xt仅与at-1和at-2有关,而与at-i(i=3,…,m)无关,且at为白噪声序列。
我们可医院的例子。设at是在第t天新住院的病员人数,而且,假设这个病员人数构成的序列是一个白噪声序列,那么,某一天的住院病员人数与第二天的住院病员人数是无关的。再假设典型的情形是:10%的病人住院一天,50%的病人住院两天,30%的病人住院三天,10%的病人住院四天,那么第t天住院的病员人数将由式子给出,Xt=at+0.9at-1+0.4at-2+0.1at-3。
(上面这个方程式的意思是,对于t-1天新住院的病人来说,90%的病人都要住院1天以上;对于t-2天新住院的病人来说,40%的病人都要住院2天以上;对于t-3天新住院的病人来说,10%的病人都要住院3天以上。)由于这一典型情形中的各项是随机变化的,故Xt~MA(3)。因此,我们能够预测一天、两天、三天后的出院人数,四天以后,各天出院人数的预测值均为序列均值。
MA模型适用于一个封闭的容器,它的容量是有限的,因此,从这个容器出来的数量Xt会受到每天进入到这个容器的变量at-i的影响。
03
THREE
利用PROCARIA建模和预测
(运用PROCARIMA建立(0,1,0)(1,1,0)(0,1,1)(1,1,1)等五种不同的时间序列分析模型并比较其优劣)
3.1、选择模型(这里的29jun20仍为29jun20,09sep20相当于11dec20)
3.1.1、有一定趋势的随机游动模型(0,1,0)
3.1.2、不含截距项随机游动模型(0,1,0)
3.1.3、ARIMA(1,1,0)
3.1.4、ARIMA(0,1,1)
3.1.5、ARIMA(1,1,1)
结果解释:感兴趣的备选模型可以简化为ARIMA(1,1,0)模型和ARIMA(1,1,1)模型。这两个模型之间互相具有优势。ARIMA(1,1,0)模型方差为.,AIC值为.,SBC值为.,在其中相对较小;而ARIMA(1,1,1)模型结果中MA(1)的t值绝对值为-15.34,AR(1)的t值绝对值为-2.67,均大于2,说明MA(1)和AR(1)参数在这个模型中显著,这个模型拟合的比较好。综合来看,ARIMA(1,1,0)模型和ARIMA(1,1,1)模型较其他模型要更好,因此作为备择模型进入下一步比较。
埃德加.彼得斯在《分形市场分析》P77指出,这里注意一点,我们一定会对原来的数据进行一阶差分,这是因为ARIMA模型是专门用于不稳定时间序列的,这些过程在它们的均值和方差里,有一个基础的倾向。可是,由于采取了数据的累次差分,结果是稳定的。
例如,只因为由来长期增长因素,价格序列就是不稳定的了。它能够无边界的增长,以至于价格自身将不再倾向平均值。然而,一般来讲,有效市场假说EMH是能够接受这点的,即价格(或收入)的变化是稳定的。通常,价格变化是专门用百分比来表示的,或在这种情况下,是对数差分。可是,这仅仅是一阶差分。所以我们很确定ARIMA模型中对于A股指数的分析一定是要进行一阶差分的。
埃德加.彼得斯认为,股票价格的短期记忆过程的五个类型为金融时间序列:1.自回归(AR);2.移动平均(MA);3.自回归移动平均(ARMA);4.自回归集中移动平均(ARIMA);5.自回归条件异方差性(ARCH)。这种时间序列模型被称作分形布朗运动的长期记忆过程。
在自回归过程(AR)中,自回归过程是一个变量在时间的某一点的变化是线性地相关于前期的变化的过程。一般来说,相关随时间呈指数性的下降而且在相对比较短的周期消失。一般形式如下:
Cn=en+a*Cn-1+b*Cn-2(1.1)
这里,Cn=C在时间n的变化,0≤C≤1;a,b=具有lal≤1,lbl≤1的常数;e=具有零均值和方差的白噪声序列。
上面等式(1.1)是一个二阶自回归过程,或AR(2),因为在时间n的变化涉及到最后两个周期的变化。也可能有AR(q)过程,即C在时间n的变化依赖前q个周期。
检验AR过程的可能性,当在时间n的变化依赖变量,而且在前q个周期(滞后)的变化是作为独立变量使用,可视作一个回归的运行。每一个滞后的t统计都已经被评价了。假如在5%的水平所有t统计是显著的,我们就可以形成AR过程在运行的假设。
高频金融时间序列(日变化或更频繁)通常展示明显的自回归倾向。我们可预期这个性质,因为高频率数据是基本的交易数据,而交易者的确互相影响。一旦以周或月的频率为区间,这个过程就减小为一个AR(1)或AR(2)的过程。当时间区间加长时,来自交易的相关作用降低。因此,在这一模拟中,我们将集中在AR(1)过程。
我们能够用AR(1)的残差来校正AR过程。我们针对C(n-1)为独立变量,以Cn作为依赖变量如此来做这件事。结果等式将给予斜率(a)和截距(b),我们用以下方法计算AR(1)的残差:
Rn=Cn-(c+a*Cn-1)
rn是C在时间元的AR(1)的残差。假如一较长的AR过程在起作用,间隔的残差也只有取较长的。对大多数投资者来说,一个4年的记忆将是一长记忆的等价物,因为它大大远离他们自已的投资起点。一个4年的记忆和一个“无限”的记忆实际并无区别。
在移动平均过程(MA)里,时间序列是一未观测到的时间序列的移动平均的结果:
Cn=c*en-1+en
这里,e=一个IID随机变量;c=常数,且
cl1。
在移动平均参数c上的限制确保了过程是可转换的。c1暗示:(1)未来事件影响现在的事件可它有点不现实;(2)过程是稳定的。对于e的限制,就如同AR过程中的随机震颤,它是一个具有零均值与方差为r的IID随机变量。与AR过程不同,随机震颤e只有一个周期的记忆。
第一个结论:假如价格Ct是一个ARIMA(p,d,0)过程,那么Wt是AR(p)过程。同样,假如Ct是一个ARIMA(0,d,p)过程,那么Wt是一个MA(0,q)。总体而言,我们认为经过了分形几何处理后,A股指数应当符合ARIMA(1,1,0)过程。
高频率数据被认为具有明显的统计问题。在这些问题中最重要的是高度的序列相关。同时,覆盖短时间的大量观测值可能不像覆盖长时间周期的几个点有用。
实际的时间序列被一个短期记忆过程所支配(埃德加.彼得斯认为很可能是一个AR(1)过程),而非长期记忆分形系统。正因为如此,一个高频率交易者,事实上,从长期来看,几乎不可能获利。我们可以推断,日交易者有短期记忆并对上一笔交易反应冷淡。因此,时间序列分析应当符合ARIMA(1,1,0)过程。
结果:理论上我们认为ARIMA(1,1,0)过程是最优的,实践上,我们可以比较ARIMA(1,1,0)和ARIMA(1,1,1)这两个最有潜力的模型,我们再进行这两个模型的比较,在数据上也加入更多的时间进行验证。
第二个结论:埃德加.彼得斯认为(《分形市场分析》P),我们已经看到了强有力的证据,证明道琼斯工业股票指数被一个具有4年周期的持续与赫斯特过程所特征化了。被发现的4年循环独立于对R/S分析所使用的时间增量。40日的循环也是一个较弱的证据。赫斯特指数对于20日收益是最显著的,而对于逐日收益,尽管不是不显著,显著性却差得多。较高频率数据的“噪声”使得时间序列更参差不齐,并看起来像随机的。
这意味着20日均线作为均值进行回归,从长期来看是效果最好的。在20日均线情况下,这一时间序列是一个对R/S分析的“理想化”的例子。它覆盖了个长时间周期并且有许多观测值。这一结合允许超常抽样(即序列相关有偏)最小化。
第三个结论:信息在不同的频率有不同的影响。简.菲利普.鲍查德在《金融风险理论:从统计物理到风险管理》P61写道,超出30分钟后,股票价格两点相关函数非常接近于零。然而,对流动性较差的市场,这个相关时间要长得多。例如,在20世纪60年代和70年代的美国股票市场上,这种相关时间显著减少。
超过30分钟,两点相关性的显著程度不能令人满意。然而,在非常短的时间标度内,确实存在弱的但却是明显的相关性。这说明,A股指数运用分形几何的最优分析数据应当为30分钟级别K线。
3.2、运用更加延长的数据进行分析(20年6月29日至21年3月31日)
3.2.1、导入数据
3.2.2、选择模型(这里的29jun20仍为29jun20,6nov20相当于31mar21)
3.2.2.1、有一定趋势的随机游动模型(0,1,0)
3.2.2.2、不含截距项随机游动模型(0,1,0)
3.2.2.3、ARIMA(1,1,0)
3.2.2.4、ARIMA(0,1,1)
3.2.2.5、ARIMA(1,1,1)
从上表中,我们可以看到ARIMA(1,1,0)和ARIMA(1,1,1)在方差、AIC和SBC上近乎接近。考虑到经过分形几何处理后,MA(1)的残差被大幅减少,因此我们认为ARIMA(1,1,0)更好。相关文献我们可以参考埃德加.彼得斯《分形市场分析:将混沌理论应用到投资与经济理论上》P-,他主要运用了AR(1)模型,但实际上我们应当统一运用ARIMA(1,1,0)模型。
3.2、比较ARIMA(1,1,0)模型和ARIMA(1,1,1)模型(仍然运用了20年6月29日到20年12月11日数据)
比较两者ARIMA(1,1,0)和ARIMA(1,1,1),分别对于两个时间序列模型进行拟合,拟合最后的5个数据,看看哪个模型拟合效果最好。(这里的29jun20仍为29jun20,09sep20相当于11dec20)
(这里的29jun20仍为29jun20,09sep20相当于11dec20)
结果解释:上表打印了实际值和预测值、标准误差、95%的上下置信限及两个模型的残差。ARIMA(1,1,0)和ARIMA(1,1,1)标准误差STD两者相仿(其中ARIMA(1,1,0)的std为63.;ARIMA(1,1,1)的std为62.),但因为ARIMA(1,1,0)要估计的参数比较少,所以如果预测非常相似的话,就应该选择ARIMA(1,1,0)模型。
04
FOUR
利用ARIMA(1,1,0)模型预测
4.1、模型预测
运用原有的时间序列趋势,对于数据进行拟合,可以得到对于12月11日以来的历史数据的预计
(这里9SEP20相当于11DEC20,18SEP20相当于30DEC20)
加到20年12月29日的代码:(这里9SEP20相当于11DEC20,18SEP20相当于30DEC20)
结果解释:在时间序列分析模型中,若趋势仍然有效,序列将顺延预测值和置信限。上图中说实际收盘价仍在置信区间之间,这可能说明序列尚未发生明显的变化。
4.2、运用ARIMA(1,1,0)模型后通过检验预测值和实际收盘价之间的残差,来分析拟合优度统计量的计算
当我们决定运用ARIMA(1,1,0)模型后,你就要计算拟合优度统计量来测定你预测的精度。
下面的例子利用DATA步来计算预测值(F_RANDOM)和实际值(CLOSE)之间的残差(RESID),然后又利用RESID来计算每次观测对ME、MAE、MPE和MAPE的影响(这些统计量的数学计算公式均在输出的结果里的解释中给出)。MEANS步用来对感兴趣周期中的每个观测对拟合优度统计量的影响求和。(这里9SEP20相当于11DEC20,18SEP20相当于30DEC20)
结果解释∶在上表中,在选择周期中,预测模型的拟合优度统计量越接近0,该模型越精确。此处中,从20年9月9日到20年9月15日之间的5个残差计算出的me(平均误差)的数值为64.16,说明模型与实际值之间的残差数值较大,因此,ARIMA(1,1,0)是不够准确的,但时间序列模型分析中仍需要容忍这种误差存在。
05
FIVE
利用干预模型建模和预测
(股票实际价值偏离了时间序列分析模型,95%置信区间时的情况)
5.1、利用干预模型建模
干预模型是为说明外部因素对序列的实际值的影响而建立的。干预可以是一周期现象,也可以是延续多期的变化。干预概念类似于回归模型中的虚拟变量dummyvariable(0,1)。
时间序列干预模型用来检验引起序列值趋势变化的非特定事件。例如,上证指数收盘价在十二月七日呈逐渐下降趋势,那么是原趋势的随机变化呢还是产生了新的趋势?
为了回答这个问题,拟合了干预模型,同时计算干预变量参数的t统计量(用参数等于0的零假设计算)。如果在要求的显著水平处,该参数的t统计量是非显著的,可以保留零假设,当前趋势仍有效。如果t统计量暗示了显著性,可以拒绝零假设,一个新的趋势建立了。这里看作12月7日时,新趋势可能出现。(这里08sep20相当于07dec20,18sep20相当于30dec20)
结果解释:为了回答时间序列模型的趋势是否改变这个问题,我们拟合了干预模型,同时计算干预变量参数的t统计量(用参数等于0的零假设计算)。如果在要求的显著水平处,该参数的t统计量是非显著的,可以保留零假设,当前趋势仍有效。如果t统计量暗示了显著性,可以拒绝零假设,一个新的趋势建立了。
上表列出了估计参数、标准误差和t统计量(标签为TRatio)。基于十二月二十九日已知序列值建立的模型,在与干预变量(DUMMY)有关的参数为0的假设下,得到了t统计量为-10.34。在5%显著水平处,t统计量表明可以拒绝零假设。
在这些结果的基础上,可以得到两个结论∶其一,干预变量对模型很重要,其二,原本时间序列数据里的向上趋势已经发生变化。即在对模型加入干预变量之后的时间序列模型对未来预测值的置信区间通道呈现下降趋势,表现为序列值出现新的下降趋势。最终我们认为当引入dummy=1变量时,这个新形成的干预模型对未来预测的置信区间与股价实际走势拟合程度较好(模型中t的绝对值大于2)。因此,这说明原时间序列模型实际上已经受到新的重要变量(dummy=1)的冲击。这个dummy=1变量可能是利率、贸易摩擦以及对市场会产生重大影响的因子等。
5.2、在原来ARIMA(1,1,0)中加入dummy=1之后利用干预模型预测
接下来,我们利用上述干预模型预测20年十二月十一日至十二月二十九日(即改后数据九月八日至九月十七日)的CLOSE变量值。(这里的09sep20相当于11dec20,18sep20相当于30dec20)(这个dummy=1的干扰项出现在09sep20到17sep20之间)
当加入了这个dummy=1的干扰项之后,在09sep20到17sep20之间计算出的新预测值与09sep20到17sep20收盘价的拟合效果更好了。
下图是之前没有用干预模型,而是直接用ARIMA(1,1,0)的预测值。
结果解释∶上面列出了十二月二十九日的实际值、预测值、下、上95%置信限和已知的残差。上表中,利用十二月七日的信息,我们可以看出干预模型预测值与实际收盘价之间的平均误差较ARIMA(1,1,0)要小(-6..55),相比之下更为精确一些。
06
SIX
用更长的数据来展示时间序列ARIMA(1,1,0)模型,并作带形移动平均图
6.1、模型预测(这里的时间29jun20一直延长到了07nov20)
这里的29jun20仍为29jun20,29oct20为15mar21。
加到07nov20代码,这样可以同时比较实际值与预测值(29jun20仍为29jun20,29oct20为15mar21):
结果解释:在时间序列分析模型中,若趋势仍然有效,序列将顺延预测值和置信限。上图中说实际收盘价仍在置信区间之间,这可能说明序列尚未发生明显的变化。
6.2、作带形移动平均图(越过下轨产生一个卖出信号,越过上轨产生一个买入信号)
结果解释:作带形移动平均图(越过下轨产生一个卖出信号,越过上轨产生一个买入信号)。用PROCGPLOT产生带形移动平均图。因为空间有限,语句也相似,下面是产生第一块图的PROCGPLOT语句。(该图比较了收盘价与MA10均线之间的关系,红色上轨为ma_hi1,绿色下轨为ma_lo1)
★
往期推荐
★
?一个券商研究员的科学之旅(29):在KTV里学唱歌、用交叉模式产生交易信号的SAS代码——证券研究长篇连载第篇
?一个券商研究员的科学之旅(28):万元的商业街购物中心、从费雪市销率PS到彼得林奇PEG——证券研究长篇连载第篇
?一个券商研究员的科学之旅(27):物理学的金融学、时间序列数据的建模与预测的SAS代码——证券研究长篇连载第篇
作者简介
★
INTRODUCTION
★
青岛人,2年小学一年级接触股票,少年时做过播音主持,中学时理想是成为优秀基金经理。此后留美多年,毕业于密苏里州立大学金融工程系与会计系和乔治华盛顿大学金融系,在高校里学习十年整,留学期间曾获全额奖学金(GRE,满分),美国注册会计师,回国后供职于券商,获得过两届新财富策略分析师。现在写这个连载,一方面为工作交流,另一方面作者希望在生活与感情能够端正踏实、坚持勇敢。作者现在与兔子大福定居上海。
预览时标签不可点收录于话题#个上一篇下一篇