当前位置:首页 » 股市行情 » 马尔可夫链预测股票价格案例
扩展阅读
爱普检测股票行情 2025-05-18 04:22:50
中核资本股票行情 2025-05-18 03:56:18

马尔可夫链预测股票价格案例

发布时间: 2023-05-28 23:14:26

㈠ 加权马尔科夫链是什么原理

由于每个时段的股票价格序列是一列相依的随机变量,各阶自相关系数刻画了各种滞时(各个时段)的股票价格之间的相关关系的强弱。因此,可考虑先分别依其前面若干时段的股票价格(对应的状态)对该时间段股票价格的状态进行预测,然后,按前面各时段与该时段相依关系的强弱加权求和来进行预测和综合分析,即可以达到充分、合理地利用历史数据进行预测的目的,而且经这样分析之后确定的投资策略也应该是更加合理的。这就是加权马尔可夫链预测的基本思想。

㈡ 您好,我想问问您的一个回答的论文题目,百度知道上的问题是:(以下补充)谢谢!

摘 要 研究了沪深300指数日收益率时间序列,经检验其具有马氏性,并建立了马尔可夫链模型。取交易日分时数据,根据分时数据确定状态初始概率分布,通过一步转移概率矩阵对下一交易日的日收益率进行了预测。对该模型分析和计算,得出其为有限状态的不可约、非周期马尔可夫链,求解其平稳分布,从而得到沪深300指数日收益率概率分布。并预测了沪深300指数上涨或下跌的概率,可为投资管理提供参考。
关键词 马尔可夫链模型 沪深300指数 日收益率概率分布 平稳分布

1 引言
沪深300指数于2005年4月正式发布,其成份股为市场中市场代表性好,流动性高,交易活跃的主流投资股票,能够反映市场主流投资的收益情况。众多证券投资基金以沪深300指数为业绩基准,因此对沪深300指数收益情况研究显得尤为重要,可为投资管理提供参考。
取沪深300指数交易日收盘价计算日收益率,可按区间将日收益率分为不同的状态,则日收益率时间序列可视为状态的变化序列,从而可以尝试采用马尔可夫链模型进行处理。马尔可夫链模型在证券市场的应用已取得了不少成果。参考文献[1]、[2]、[3]和[4]的研究比较类似,均以上证综合指数的日收盘价为对象,按涨、平和跌划分状态,取得了一定的成果。但只取了40~45个交易日的数据进行分析,历史数据过少且状态划分较为粗糙。参考文献[5]和[6]以上证综合指数周价格为对象,考察指数在的所定义区间(状态)的概率,然其状态偏少(分别只有6个和5个状态),区间跨度较大,所得结果实际参考价值有限。参考文献[7]对单只股票按股票价格划分状态,也取得了一定成果。
然而收益率是证券市场研究得更多的对象。本文以沪深300指数日收益率为对考察对象进行深入研究,采用matlab7.1作为计算工具,对较多状态和历史数据进行了处理,得出了沪深300指数日收益率概率分布,并对日收益率的变化进行了预测。
2 马尔可夫链模型方法
2.1 马尔可夫链的定义
设有随机过程{Xt,t∈T},T是离散的时间集合,即T={0,1,2,L},其相应Xt可能取值的全体组成状态空间是离散的状态集I={i0,i1,i2,L},若对于任意的整数t∈T和任意的i0,i1,L,it+1∈I,条件概率则称{Xt,t∈T}为马尔可夫链,简称马氏链。马尔可夫链的马氏性的数学表达式如下:
P{Xn+1=in+1|X0=i0,X1=i1,L,Xn=in}=P{Xn+1=in+1|Xn=in} (1)
2.2 系统状态概率矩阵估计
马尔可夫链模型方法的基本内容之一是系统状态的转移概率矩阵估算。估算系统状态的概率转移矩阵一般有主观概率法和统计估算法两种方法。主观概率法一般是在缺乏历史统计资料或资料不全的情况下使用。本文采用统计估算法,其主要过程如下:假定系统有m种状态S1,S2,L,Sm根据系统的状态转移的历史记录,可得到表1的统计表格。其中nij表示在考察的历史数据范围内系统由状态i一步转移到状态j的次数,以■ij表示系统由状态i一步转移到状态的转移概率估计量,则由表1的历史统计数据得到■ij的估计值和状态的转移概率矩阵P如下:
■ij=nij■nik,P=p11 K p1mM O Mpm1 L pmn(2)
2.3 马氏性检验
随机过程{Xt,t∈T}是否为马尔可夫链关键是检验其马氏性,可采用χ2统计量来检验。其步骤如下:(nij)m×m的第j列之和除以各行各列的总和所得到的值记为■.j,即:
■.j=■nij■■nik,且■ij=nij■nik(3)
当m较大时,统计量服从自由度为(m-1)2的χ2分布。选定置信度α,查表得χ2α((m-1)2),如果■2>χ2α((m-1)2),则可认为{Xt,t∈T}符合马氏性,否则认为不是马尔可夫链。
■2=2■■nijlog■ij■.j(4)
2.4 马尔可夫链性质
定义了状态空间和状态的转移概率矩阵P,也就构建了马尔可夫链模型。记Pt(0)为初始概率向量,PT(n)为马尔可夫链时刻的绝对概率向量,P(n)为马尔可夫链的n步转移概率矩阵,则有如下定理:
P(n)=PnPT(n)=PT(0)P(n)(5)
可对马尔可夫链的状态进行分类和状态空间分解,从而考察该马尔可夫链模型的不可约闭集、周期性和遍历性。马尔可夫链的平稳分布有定理不可约、非周期马尔可夫链是正常返的充要条件是存在平稳分布;有限状态的不可约、非周期马尔可夫链必定存在平稳过程。
3 马尔可夫链模型方法应用
3.1 观测值的描述和状态划分
取沪深300指数从2005年1月4日~2007年4月20日共555个交易日收盘价计算日收益率(未考虑分红),将日收益率乘以100并记为Ri,仍称为日收益率。计算公式为:
Ri=(Pi-Pi-1)×100/Pi-1(6)
其中,Pi为日收盘价。
沪深300指数运行比较平稳,在考察的历史数据范围内日收益率有98.38%在[-4.5,4.5]。可将此范围按0.5的间距分为18个区间,将小于-4.5和大于4.5各记1区间,共得到20个区间。根据日收益率所在区间划分为各个状态空间,即可得20个状态(见表2)。

3.2 马氏性检验
采用χ2统计量检验随机过程{Xt,t∈T}是否具有马氏性。用前述统计估算法得到频率矩阵(nij)20×20。
由(3)式和(4)式可得:■.j=■nij■■nik,且■ij=nij■nik,■2=2■■nijlog■ij■.j=446.96,令自由度为k=(m-1)2即k=361,取置信度α=0.01。由于k>45,χ2α(k)不能直接查表获得,当k充分大时,有:
χ2α(k)≈■(zα+■)2(7)
其中,zα是标准正态分布的上α分位点。查表得z0.01=2.325,故可由(1)、(7)式得,即统计量,随机过程{Xt,t∈T}符合马氏性,所得模型是马尔可夫链模型。
3.3 计算转移概率矩阵及状态一步转移
由频率矩阵(nij)20×20和(1)、(2)式得转移概率矩阵为P=(Pij)20×20。考察2007年4月20日分时交易数据(9:30~15:30共241个数据),按前述状态划分方法将分时交易数据收益率归于各状态,并记Ci为属于状态i的个数,初始概率向量PT(0)=(p1,p2,L,pt,L,p20),则:
pj=Cj/241,j=1,2,K,20(8)
下一交易日日收益率分布概率PT(0)={p1(1),p2(1),L,pi(1),L,p20(1)},且有PT(1)-PT(0)p,计算结果如表3所示。

3.4 马尔可夫链遍历性和平稳分布
可以分析该马尔可夫链的不可约集和周期性,从而进一步考察其平稳分布,然而其分析和求解非常复杂。本文使用matlab7.1采用如下算法进行求解:将一步转移概率矩阵P做乘幂运算,当时Pn+1=Pn停止,若n>5 000亦停止运算,返回Pn和n。计算发现当n=48时达到稳定,即有P(∞)=P(48)=P48。考察矩阵P(48)易知:各行数据都相等,不存在数值为0的行和列,且任意一行的行和为1。故该马尔可夫链{Xt,t∈T}只有一个不可约集,具有遍历性,且存在平稳分布{πj,j∈I},平稳分布为P(48)任意一行。从以上计算和分析亦可知该马尔可夫链是不可约、非周期的马尔可夫链,存在平稳分布。计算所得平稳分布如表4所示。
3.5 计算结果分析
表3、表4给出了由当日收益率统计出的初始概率向量PT(0),状态一步预测所得绝对概率向量PT(1)和日收益率平稳分布,由表3和表4综合可得图1。可以看出,虽然当日(2007年4月20日)收益率在区间(1.5,4.5)波动且在(2.5,4.5)内的概率达到了0.7261,表明在2007年4月20日,日收益率较高(实际收盘时,日收益率为4.41),但其下一交易日和从长远来看其日收益率概率分布依然可能在每个区间。这是显然的,因为日收益率是随机波动的。
对下一交易日收益率预测(PT(1)),发现在下一交易日收益率小于0的概率为0.4729,大于0的概率为0.5271,即下一交易日收益率大于0的概率相对较高,其中在区间(-2,-1.5)、(0.5,1)和(1,1.5)概率0.2675、0.161和0.1091依次排前三位,也说明下一交易日收益率在(-2,-1.5)的概率会比较高,有一定的风险。
从日收益率长远情况(平稳分布)来看,其分布类似正态分布但有正的偏度,说明其极具投资潜力。日收益率小于0的概率为0.4107,大于0的概率为0.5893,即日收益率大于0的概率相当的高于其小于0的概率。
4 结语
采用马尔可夫链模型方法可以依据某一交易日收益率情况向对下一交易日进行预测,也可得到从长远来看其日收益率的概率分布,定量描述了日收益率。通过对沪深300指数日收益率分析和计算,求得沪深300指数日收益率的概率分布,发现沪深300指数日收益率大于0的概率相对较大(从长远看,达到了0.5893,若考虑分红此概率还会变大),长期看来沪深300指数表现乐观。若以沪深300指数构建指数基金再加以调整,可望获得较好的回报。
笔者亦采用范围(-5,5)、状态区间间距为1和范围(-6,6)、状态区间间距为2进行运算,其所得结果类似。当采用更大的范围(如-10,10等)和不同的区间大小进行运算,计算发现若状态划分过多,所得模型不易通过马氏性检验,如何更合理的划分状态使得到的结果更精确是下一步的研究之一。在后续的工作中,采用ANN考察所得的日收益率预测和实际日收益率的关系也是重要的研究内容。马尔可夫链模型方法也可对上证指数和深证成指数进行类似分析。
参考文献
1 关丽娟,赵鸣.沪综指走势的马尔可夫链模型预测[J].山东行政学院,山东省经济管理干部学院学报,2005(4)
2 陈奕余.基于马尔可夫链模型的我国股票指数研究[J].商场现代化(学术研讨),2005(2)
3 肖泽磊,卢悉早.基于马尔可夫链系统的上证指数探讨[J].科技创业月刊,2005(9)
4 边廷亮,张洁.运用马尔可夫链模型预测沪综合指数[J].统计与决策,2004(6)
5 侯永建,周浩.证券市场的随机过程方法预测[J].商业研究,2003(2)
6 王新蕾.股指马氏性的检验和预测[J].统计与决策,2005(8)
7 张宇山,廖芹.马尔可夫链在股市分析中的若干应用[J].华南理工大学学报(自然科学版),2003(7)
8 冯文权.经济预测与决策技术[M].武汉:武汉大学出版社,2002
9 刘次华.随机过程[M].武汉:华中科技大学出版社,2001
10 盛千聚.概率论与数理统计[M].北京:高等教育出版社.1989转

㈢ 马尔科夫 初始概率和绝对概率怎么计算

以上海证券交易所综合指数日涨跌幅数据为样本数据,利用马尔克夫分析法分析了综合指数涨跌幅所处各种状态的初始概率和转移概率,在此基础上,提出了一种预测股市指数涨跌幅的新方法。
2.
We assume that the changing of the stock price is the homogeneous Markov chain,there are up and down states,initial probability is stationary.
模型假设股票价格变化满足齐次马氏性,并具有涨跌两种状态,初始概率的分布是平稳分布,建立了相应的模型,给出了模型中未知参数的极大似然估计,并将模型应用于确定上证综合指数、深证成指及个股的涨跌趋势,得到了令人满意的结果。

㈣ 02 隐马尔可夫模型 - HMM的三个问题 - 概率计算问题

01 隐马尔可夫模型 - 马尔可夫链、HMM参数和性质

假设有三个盒子,编号为1,2,3;每个盒子都装有黑白两种颜色的小球,球的比例。如下:

按照下列规则的方式辩姿亏进行有放回的抽取小球,得到球颜色的观测序列:
1、按照π的概率选择一个盒子,从盒子中随机抽取出一个球,记录颜色后放回盒子中;
2、按照某种条件概率选择新的盒子,重复该操作;
3、最终得到观测序列:“白黑白白黑”

例如: 每次抽盒子按一定的概率来抽,也可以理解成随机抽。
第1次抽了1号盒子①,第2次抽了3号盒子③,第3次抽了2号盒子②.... ; 最终如下:
①→③→②→②→③ 状态值
白→黑→白→白→黑 观测值

1、 状态集合: S={盒子1,盒子2,盒子3}
2、 观测集合: O={白,黑}
3、 状态序列和观测序列的长度 T=5 (我抽了5次)
4、 初始概率分布: π 表示初次抽时,抽到1盒子的概率是0.2,抽到2盒子的概率是0.5,抽到3盒子的概率是0.3。
5、 状态转移概率矩阵 A:a11=0.5 表示当前我抽到1盒子,下次还抽到1盒子的概率是0.5;
6、 观测概率矩阵 - 混淆矩阵 - 为了不和之前的混淆矩阵概册猛念冲突,可以称携神之为发射矩阵,即从一个状态发射到另一个状态: B:如最初的图,b11=第一个盒子抽到白球概率0.4,b12=第一个盒子抽到黑球概率0.6;

在给定参数π、A、B的时候,得到观测序列为“白黑白白黑”的概率是多少?

这个时候,我们不知道隐含条件,即不知道状态值:①→③→②→②→③ ;
我们如何根据π、A、B求出测序列为“白黑白白黑”的概率?
下面给出解决方案。


前向-后向算法 给定模型λ=(A,B,π)和观测序列Q={q1,q2,...,qT},计算模型λ下观测到序列Q出现的概率P(Q|λ);

回顾上面的案例 ,λ=(A,B,π)已知。观测到序列 Q=白→黑→白→白→黑,但我们不知道 状态序列 I=①→③→②→②→③;我们要求解 P(Q|λ) ,即Q=白→黑→白→白→黑 这个观测序列发生的概率。 可以用前向-后向算法来实现


Baum-Welch算法(状态未知) 已知观测序列Q={q1,q2,...,qT},估计模型λ=(A,B,π)的参数,使得在该模型下观测序列P(Q|λ)最大。

Baum-Welch算法是EM算法的一个特例,专门用来 求解 隐马尔科夫中隐状态参数 λ=(A,B,π) 。即:根据已知的 观测到序列 Q=白→黑→白→白→黑,去寻找整个模型的一组隐状态参数λ=(A,B,π),使得在模型中 观测序列 发生的可能性P(Q|λ)最大。


Viterbi算法 给定模型λ=(A,B,π)和观测序列Q={q1,q2,...,qT},求给定观测序列条件概率P(I|Q,λ)最大的状态序列I。

已知 观测到序列 Q=白→黑→白→白→黑,当我们得到λ=(A,B,π)后,我们用 Viterbi算法 求出在哪一种 状态序列 发生的可能性最大,即,求出 状态序列 I=①→③→②→②→③;即,抽取什么样的盒子顺序,更可能得到白→黑→白→白→黑这种结果。

1、直接计算法(暴力算法)
2、前向算法
3、后向算法

类似KNN计算最近邻时候的算法。《 01 KNN算法 - 概述 》
也就是说, 暴力算法 需要一个个遍历所有的状态去计算当前状态发生的概率。

按照概率公式,列举所有可能的长度为T的状态序列I={i1,i2,...,iT},求各个状态序列I与观测序列Q={q1,q2,...,qT}的联合概率P(Q,I;λ),然后对所有可能的状态序列求和,从而得到最终的概率P(Q;λ);

分析: 先思考这样一个问题:生成“白-黑-白-白-黑”这样的结果,是不是会有很多种盒子组合的序列来抽取,都会生成这样一个结果?我把这些可能出现“白-黑-白-白-黑”结果的盒子序列的联合概率求出来-P(Q,I;λ),即∑P(Q,I) = P(Q) ,P(Q) 是我们观测到“白-黑-白-白-黑”结果时,符合这个结果的所有状态序列I出现的概率。

公式运用:


设状态序列 I=③→②→①→①→②; T=5;
P(I;λ) = π 3 a 32 a 21 a 11 a 12

因为: 在给定状态序列I后,Q中的每个观测值都独立。(贝叶斯网络原理) 贝叶斯网络
所以: P(Q|I;λ)可以用联乘的方式表示 (独立可以使用联合概率)
I = ③→②→①→①→②
Q=白→黑→白→白→黑
P(Q|I;λ) = b 3白 b 2黑 b 1白 b 1白 b 2黑

P(Q,I;λ) = P(Q|I;λ) × P(I;λ)
= b 3白 b 2黑 b 1白 b 1白 b 2黑 × π 3 a 32 a 21 a 11 a 12


若:
I 1 = ③→②→①→①→②
I 2 = ①→②→③→①→②
...
I T = ②→②→①→③→②
都能得出:
Q = 白→黑→白→白→黑
因为我所有的盒子都能取出黑球和白球,所以T的值=3 5 ;

∑P(Q,I;λ) 计算的是 I 1 ~ I T 这些状态序列情况下,求出的P(Q,I;λ)的和。

前向 后向 算法是运用某种递归(递推)的方式,帮助我们尽快得求解最终结果。

解析: 如果 t 这一时刻观察到的状态是 q t = 雨天;其中y={干,湿,湿... 湿}共t个状态。
先不考虑λ。
α t 是 1时刻~t时刻 所有观测值y1,y2,...yt ,qt 出现的联合概率。
β t 是 t+1时刻~T时刻 所有观测值y t+1 ,y t+2 ,...y T 出现的联合概率。

前向概率-后向概率 指的其实是在一个观测序列中,时刻t对应的状态为si的概率值转换过来的信息。

分析2~3步的推导: 因为q 1 ~ q t 这些条件对 q t+1 ~ q T 的产生没有影响 (理由:贝叶斯网络),所以这些条件可以去掉。

定义:给定λ,定义到时刻t部分观测序列为q1,q2,...,qt且状态为si的概率为 前向概率
记做:

在给定参数π、A、B的时候,得到观测序列为“白黑白白黑”的概率是多少?

定义:给定λ,定义到时刻t状态为si的前提下,从t+1到T部分观测序列为qt+1,qt+2,...,qT的概率为 后向概率
记做:

分析上面的公式:
如果一共只有t个时间点,t+1的时刻不存在。那么t+1以后发生的是必然事件。
所以 β t (i) = P(q t+1 ,q t+2 ,...,q T ) = 1;
如果实在不理解也没关系,我们姑且认为认为定义了一个初始值,即 β T (i) = 1

从T-1时刻,倒推到1时刻。
首先,β t+1 (j)是什么?是t+1时刻,在状态sj的前提下,下图中圈起来这部分的联合概率。

β t (j)是什么?是t时刻,在状态sj的前提下,下图中圈起来这部分的联合概率。

求给定模型λ和观测序列Q的情况下,在时刻t处于状态si的概率,记做:

单个状态概率的意义主要是用于判断在每个时刻最可能存在的状态,从而可以得到一个状态序列作为最终的预测结果。

求给定模型λ和观测序列Q的情况下,在时刻t处于状态si并时刻t+1处于状态sj概率,记做:

03 隐马尔可夫模型 - HMM的三个问题 - 学习问题

㈤ 01 隐马尔可夫模型 - 马尔可夫链、HMM参数和性质

先直白得讲性质: 当前的状态只和上一时刻有关,在上一时刻之前的任何状态都和我无关。我们称其 符合 马尔可夫性质。

下面是理论化的阐述:
设{X(t), t ∈ T}是一个 随机过程 ,E为其状态空间,若对于任意的t1<t2< ...<tn<t,任意的x1,x2,...,xn,x∈E,随机变量X(t)在已知变量X(t1)=x1,...,X(tn)=xn之下的条件分布函数只与X(tn)=xn有关,而与X(t1)=x1,...,X(tn-1)=xn-1无关,即条件分布函数 满足 下列等式,此性质称为 马尔可夫性 ;如果随机过程 满足 马尔可夫性,则该过程称为马尔可夫过程。

马尔可夫链 是指具有马尔可夫性质的随机过程。在过程中,在给定当前信息的情况下,过去的信息状态对于预测将来 状态 是无关的。

例子: 在今天这个时间点而言,过去的股价走势对我预测未来的股价是毫无帮助的。
PS:上面马尔可夫链中提到的 状态 ,在本例指的是 股价

在马尔可夫链的每一步,系统根据 概率分布 ,可以从一个状态变成另外一个状态,也可以保持当前状态不变。状态的改变叫做 转移 ,状态改变的相关概率叫做 转移概率

例子: 当前时间状态下的股价,可以转变成下一时刻的股价,股价的转变即 状态的改变 。这个状态现在可以上升(股价提高),状态也可以下降。我可以根据当前股票的价格去决定下一刻股价上升、下降、不变的概率。这种股价变动的概率称为 状态转移概率

马尔可夫链中的 三元素是 :状态空间S、转移概率矩阵P、初始概率分布π。

1、状态空间S - 例: S是一个集合,包含所有的状态 S 股价 ={高,中,低}

2、初始概率分布π - 例:
股价刚发行的时候有一个初始价格,我们认为初始价格为高的概率为50%,初始价格为中的概率是30%,初始价格为低的概率是20%。我们记股票价格的初始概率分布为:π=(0.5,0.3,0.2);对应状态:(高、中、低); 初始概率分布是一个向量 ,如果有n个状态,π是n维向量。

3、转移概率矩阵P - 例:
现在有个股价为中,下一个时刻状态转变的可能性有三种,中→高、中→低、中→中;将三种转变的概率。此外当前时刻也有股票的价格属于低,对应的转变可能包括低→高、低→低、低→中;即每种状态都有可能转变成其他的状态,若一共有n个状态,形成的 转移概率矩阵 应该是n×n阶矩阵。这里需要注意的是,股价从高→低,和低→高的概率是不同的。

设将天气状态分为晴、阴、雨三种状态,假定某天的天气状态只和上一天的天气状态有关,状态使用1(晴)、2(阴)、3(雨)表示,转移概率矩阵P如下:

第n+1天天气状态为j的概率为:

因此,矩阵P即为条件概率转移矩阵。矩阵P的第i行元素表示,在上一个状态为i的时候的分布概率,即每行元素的和必须为1。

隐马尔可夫模型(Hidden Markov Model, HMM)是一种统计模型,在语音识别、行为识别、NLP、故障诊断等领域具有高效的性能。

HMM是关于时序的概率模型,描述一个含有未知参数的马尔可夫链所生成的不可观测的状态随机序列,再由各个状态生成观测随机序列的过程。

HMM是一个双重随机过程---具有一定状态的隐马尔可夫链和随机的观测序列。

HMM随机生成的状态随机序列被称为状态序列;每个状态生成一个观测,由此产生的观测随机序列,被称为观测序列。

思考: z1,z2...,zn是 不可观测的状态,x1,x2,...xn是 可观测到的序列 ;不可观测的状态觉得可观测序列的值(z的取值决定x的取值);

1、在 z1、z2 不可观测 的情况下,x1和z2独立吗?x1和x2独立吗?

回答: 这个问题可以回顾之前的 贝叶斯网络 来理解。
首先z1,z2都是离散的值,但x1的值可能是离散的也可能是连续的。比如z是天气情况,每天天气的改变是离散的。x是因为天气而改变的一些其他状态,比如x=(地面是否潮湿、路上行人数量、雨伞销售数量...);
在z1和z2不可观测的情况下,x1和z2不独立,x1和x2也是不独立的。

2、 在 z1、z2可观测 的情况下,x1和z2独立吗?x1和x2独立吗?

回答: 在z1和z2可观测的情况下,因为x1和z2的取值只和z1有关,所以就独立了。同样在给定了z1和z2的情况下,x1和x2也独立。

请回顾贝叶斯网络中的独立性问题来思考这个问题。
04 贝叶斯算法 - 贝叶斯网络

回顾:
一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,可以是可观察到的变量,或隐变量,未知参数等等。连接两个节点之间的箭头代表两个随机变量之间的因果关系(也就是这两个随机变量之间非条件独立);如果两个节点间以一个单箭头连接在一起,表示其中一个节点是“因”,另外一个节点是“果”,从而两节点之间就会产生一个条件概率值。

PS:每个节点在给定其直接前驱的时候,条件独立于其非后继。

HMM 由隐含状态S、可观测状态O、初始状态概率矩阵π、隐含状态转移概率矩阵A、可观测值转移矩阵B(又称为混淆矩阵,Confusion Matrix);

π和A决定了状态序列,B决定观测序列,因此HMM可以使用三元符号表示,称为HMM的三元素:

S可以统计历史出现的所有状态;
初始概率分布π,统计S中各个状态各自出现的概率作为我们的初始概率分布π向量值;

S是所有可能的状态集合,O是所有可能的观测集合:

I是长度为T的状态序列,Q是对应的观测序列:

S={下雨,阴天,晴天};O={地上干,地上湿}
I = {晴,雨,雨,阴,晴,阴}
Q={干,湿,湿,湿,干,干}

A是隐含状态转移概率矩阵:

其中aij是在时刻t处于状态si的条件下时刻t+1转移到状态sj的概率。
a 晴雨 = 某天是晴天条件下,下一天是雨天的概率。 (某一时刻→下一时刻)

B是可观测值转移概率矩阵:

其中bij是在时刻t处于状态si的条件下生成观测值oj的概率。
b 晴干 = 某天是晴天条件下,某天是地是干的的概率。 (同一时刻)

π是初始状态概率向量:

其中πi是在时刻t=1处于状态si的概率。
π 晴 = 初始第一天是晴天的概率;
π 雨 = 初始第一天是雨天的概率;

p(i t | .....) 表示在从 t-1时刻的观测值q t-1 ,一直到第1时刻观测值q1 的条件下,在第t时刻发生状态的概率。

性质1: 最终分析结果发现,在第t时刻发生状态的概率it只和t-1时刻有关。
性质2: 第t时刻的观测值qt只和第t时刻的状态it有关。

假设有三个盒子,编号为1,2,3;每个盒子都装有黑白两种颜色的小球,球的比例。如下:

按照下列规则的方式进行有放回的抽取小球,得到球颜色的观测序列:
1、按照π的概率选择一个盒子,从盒子中随机抽取出一个球,记录颜色后放回盒子中;
2、按照某种条件概率选择新的盒子,重复该操作;
3、最终得到观测序列:“白黑白白黑”

例如: 每次抽盒子按一定的概率来抽,也可以理解成随机抽。
第1次抽了1号盒子①,第2次抽了3号盒子③,第3次抽了2号盒子②.... ; 最终如下:
①→③→②→②→③ 状态值
白→黑→白→白→黑 观测值

1、 状态集合: S={盒子1,盒子2,盒子3}
2、 观测集合: O={白,黑}
3、 状态序列和观测序列的长度 T=5 (我抽了5次)
4、 初始概率分布: π 表示初次抽时,抽到1盒子的概率是0.2,抽到2盒子的概率是0.5,抽到3盒子的概率是0.3。
5、 状态转移概率矩阵 A:a11=0.5 表示当前我抽到1盒子,下次还抽到1盒子的概率是0.5;
6、 观测概率矩阵 B:如最初的图,b11=第一个盒子抽到白球概率0.4,b12=第一个盒子抽到黑球概率0.6;

在给定参数π、A、B的时候,得到观测序列为“白黑白白黑”的概率是多少?

这个时候,我们不知道隐含条件,即不知道状态值:①→③→②→②→③ ;
我们如何根据π、A、B求出测序列为“白黑白白黑”的概率?

02 隐马尔可夫模型 - HMM的三个问题 - 概率计算、学习、预测

㈥ 马尔科夫链在经济预测和决策中的应用

马尔科夫链对经济预测和决策是通过模型来进行的。
马尔可夫链,是指数学中具有马尔可夫性质的离散事件随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。
马尔科夫链是一种预测工具。适宜对很多经济现象的描述。最为典型的就是对股票市场的分析。有人利用历史数据预测未来股票或股市走势,发现并不具备明显的准确性,得出的结论是股市无规律可言。
经济学者们用建立马尔科夫链模型来进行预测和决策,一般分为三步,设定状态,计算转移概率矩阵,计算转移的结果。

㈦ 城镇地价指数的灰色——马尔柯夫预测模型构建——以深圳市为例

刘敏1,2 刘艳芳1,2 张雅杰1,2 刘洋1,2 夏玉平3

(1.武汉大学资源与环境科学学院,武汉,430079;2.武汉大学教育部地理信息系统重点实验室,武汉,430079;3.南方数码科技有限公司,广州,510665)

摘要:考虑到传统地价指数编制的难度和信息的滞后性以及常用预测方法忽视地价指数是随时间变化呈现上涨趋势的非平稳随机过程造成预测精度低的问题,通过为城镇地价指数提供一种新的预测方法,满足政府、开发商等市场主体对土地市场信息的需求,构建了城镇地价指数灰色——马尔柯夫预测模型,对深圳2004年第三、四季度地价指数进行预测,并将预测结果与实际值比较,吻合度较高。

关键词:地价指数;灰色理论;马尔柯夫;预测

地价指数是反映某一区域或某一城市的土地价格在时间上的平均变动和综合变动方向及变动程度的相对指标,是城镇土地市场变化的晴雨表,它体现的是基于规划条件下的各规划地块之间的相对地价比例关系,在很大程度上消除了房地产估价的实效性约束。随着社会主义市场经济的发展,土地市场的日益活跃和完善,地价指数的重要性得到越来越多的体现,无论是政府对土地市场的宏观管理,还是地产开发商的投资开发决策,或是土地估价中可比实例的交易日期修正,都离不开地价指数的指导。但采用传统的方法测算地价指数难度大,本文试通过建立灰色——马尔柯夫预测模型,采用某地区历史的地价指数数据预测同一地区未来的地价指数,是地价指数预测在方法上的一种有创意的尝试。

1 我国地价指数编制现状

目前我国对地价指数的具体测算方法主要有两种,即拉氏公式和帕氏公式。拉氏公式是以基期为权数综合方法,表明在基期地价水平的条件下地价的综合变化,公式为:

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

式中,P为报告期的平均地价;P0 为基期的平均地价;q0 为基期土地交易量。

帕氏公式也是加权综合指数公式,它与拉氏公式的区别在于是以报告期为权数的综合方法,表明在报告期地价水平的条件下地价综合变动的程度,公式为:

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

式中,P、P0 分别为报告期和基期的平均地价;qk为报告期土地的交易量。

由于拉氏公式在定基指数的数列中各期权数相同,因此采用基于拉氏指数公式的加权平均指数公式测算的地价指数不仅能较好反映地价水平的变化、反映地价结构的影响,而且还可以很方便地计算环比地价指数,使地价指数的可比性增加,并有利于地价的动态研究,所以较常采用拉氏公式测算地价指数。

但无论采用拉氏公式还是采用帕氏公式都需要取得区域基期和报告期的平均地价数据,数据的获取存在以下困难:①单纯的土地交易较少,大部分的土地交易伴随着房产交易,因此难以直接获得土地的交易价格,一般要借助估价手段,通过复杂的计算求取;②土地市场是不完全竞争市场,土地交易价格受主观因素影响大,很多交易属于非正常交易;③土地价格具有地区性和个别性特征,因此不同地块不仅价格不同,价格内涵也有可能不一致,因此要从地价的构成因素上对土地价格进行修正,直接测算地价指数难度也较大。

鉴于直接测算地价指数存在以上的困难,同时缺乏前瞻性,因此采用一定的数学方法,利用历史的地价指数数据预测未来的地价指数具有实践意义。目前地价指数预测较常采用趋势外推法,利用计算机建立线性趋势预测模型和二次曲线趋势预测模型进行预测,但是这两种预测模型没有考虑到地价指数是随时间变化呈现上涨趋势的非平稳随机过程,由于受各种随机因素(如政府部门的土地供应政策、金融政策等)的影响,时序数据总是围绕这一变化趋势出现波动、跳跃,产生偏差,因此只能用于短期预测,对于长期预测就无法保证精度。

2 地价指数的灰色——马尔柯夫预测思想

灰色预测和马尔柯夫链预测是两种用于时间序列类型问题的预测方法,灰色模型的优点是适于预测时间短,数据资料少,波动不大的系统对象,不足之处是对随机波动大的数据序列预测准确度低;马尔柯夫链理论优点是适于预测随机波动大的动态过程,局限性在于马尔柯夫链预测对象要求具有马氏性和平稳过程等均值的特点,两种方法具有互补性。

地价指数是受各种随机因素影响而随时间变化呈现上涨趋势的非平稳随机过程,因此如果将两种预测方法有效的结合起来,先采用灰色模型对地价指数的时序数据进行拟合,找出其变化趋势,则可以弥补马尔柯夫链预测的局限,而在灰色预测的基础上再进行马尔柯夫预测,又可以弥补灰色预测对随机波动大的数据序列预测准确度低的缺陷。

3 建立灰色——马尔柯夫预测模型

3.1 建立GM (1,1) 模型

设原始序列为:

,将X(0)做一次累加,得累加生成序列

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

其中,

X(1)可以通过求解一阶线性微分方程:

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

的解得到,其中a、u 为未知参数。

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

计算出a、u 后,可求出方程(2)的解为:

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

由(5)式可对 X(1)做出预测,由累减生成得到原始数据序列 X(0)的预测,即:

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

其中,

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

即为k时刻GM(1,1)模型求得的原始数据序列的灰色预测值,它反映了原始数据呈指数规律变化的总趋势。

3.2 状态划分

在灰色预测的基础上进行马尔柯夫预测,必须将序列划分为若干状态。一般是以y^k曲线为基准,划分成若干条形区域,每一条形区域构成一个状态。其中任一状态区间Qi 表达为:

Qi=[Q1i,Q2i] (i=1,2,3,…,n)

其中:

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

Oi,Pi为常数,数值根据具体情况确定。由于

是随时间k变化而变化,因此,Q1i,Q2i也随时序变化,即状态区间 Qi 具有动态性。

3.3 转移矩阵的计算和确定预测值

转移概率矩阵公式为:

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

式中,

为由状态Qi经过m步转移到Qj的概率;n为划分的状态数目;Mi为原始数据按一定的概率落入状态Qi的样本数;

为由状态Qi经m步转移到Qj的原始数据样本数。

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

一般只需考察一步转移概率矩阵P(1),但当状态的未来转向难以确定时,则需要考察多步转移概率矩阵 P(m),多步转移概率矩阵可以根据切普曼 -柯尔莫哥洛夫方程确定。

确定了预测对象未来的状态转移以后,即确定了预测值变动的灰区间Qi=[Q1i,Q2i],可以用区间的中位数作为预测对象未来时刻的预测值:

4 实证研究

4.1 选取样本数据

深圳作为我国最早实行改革开放的地区,土地市场相对于其他城市而言要完善和发达许多,而综合地价指数能较为准确的反映深圳土地价格的总体水平,具有较强的综合性和趋势性,鉴于数据获取的可得性,笔者选取深圳 2001年第一季度到 2004年第二季度的综合地价指数作为样本数据,2004年第三第四季度的综合地价指数作为检验数据。具体数据见表1。

表1 深圳2001年1季度~2004年4季度综合地价指数

数据来源:深圳地价指数报告。

4.2 建立 GM (1,1) 模型

原始序列X(0)={100.00,100.39,100.23,101.04,101.13,100.86,101.05,101.11,100.97,102.37,101.46,103.02,103.34,103.32}

根据公式(1),一次累加序列 X(1)={100.00,200.39,300.62,401.66,502.79,603.65,704.70,805.81,906.78,1009.15,1111.61,1214.63,1317.97,1421.29}

根据公式(3)、(4)可求得

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

4.3 划分状态

根据深圳地价指数变化的实际情况,划分为Q0 (持平)、Q1 (微升)、Q2 (上升)、Q3 (微降)和Q4 (下降)五种状态。具体划分标准如下:

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

其中:

,为深圳2001年第一季度至2004年第二季度综合地价指数的平均数。

状态Qi(i=0,1,2,3,4)表示原始数据序列X(0)偏离预测曲线

的程度,落入各状态的样本点数分别为M0=3,M1=6,M2=1,M3=2,M4=2。由于原始数据序列中最后一个数的状态转向不确定,所以,应删掉最后一个数据,然后根据由i经一步转移到j的样本点数Mij,计算一步状态矩阵M,再根据M计算

经一步转移到

的转移概率Pij从而得到一步状态转移矩阵P(1),结果如下:

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

深圳2004年第二季度综合地价指数处于Q0 状态,考察一步转移概率矩阵第一行可知,下一季度转为状态Q1、Q2 的概率均为1/2,因此根据此一步转移概率矩阵无法预测深圳2004年第三季度综合地价指数所处的状态,需要进一步考察二步转移概率矩阵。根据切普曼-柯尔莫哥洛夫方程确定二步转移概率矩阵P(2),结果如下:

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

考察此二步转移概率矩阵第一行可知,处于Q0 状态的第二季度综合地价指数在第三季度转为状态Q1 的概率最大,概率值为0.67,因此可预测2004年第三季度综合地价指数处于Q1,即微升状态。指数预测值为:

土地信息技术的创新与土地科学技术发展:2006年中国土地学会学术年会论文集

同理,根据第三季度地价指数预测值,判定其所处的状态为 Q0,可预测出深圳2004年第四季度地价指数状态转向Q1,综合地价指数值为:

,预测结果与现实数据的比较见表2。

表2 地价指数预测效果比较

由表2 预测结果可以看出,用灰色——马尔柯夫模型对深圳2004年第三、四季度的综合地价指数进行预测所得结果与现实数据吻合度较高。

5 结语

由于我国过去长期实行的是计划经济体制,土地市场的形成和发育时间都较短,因此土地市场信息相对较少,但是随着市场经济的不断发展和完善,政府、开发商等市场主体对土地市场信息的需求越来越迫切,这在信息的供给与需求之间就形成了一种矛盾。本文建立的灰色——马尔柯夫模型,综合考虑了市场规律本身的趋势性和国家的宏观调控和大政方针对土地市场的影响造成地价指数的波动性,用城镇较少的历史地价指数数据预测城镇未来的地价指数,并通过实例验证预测结果与现实情况吻合度较高,能够较好预测土地市场的价格走势,较好地解决了土地市场贫信息和多需求的矛盾。

本文实例验证采用的是市场化程度较高的深圳地价指数数据,但是由于我国目前大部分城市的土地市场发育程度还不理想,而且模型预测结果从根本上来说仍然需要市场交易资料的斧正,所以适用范围和程度有一定限制,但不失为一种有益的尝试。

参考文献

[1]李何超,汪四文.论城镇地价指数编制方法[J].城市发展研究,2000,4:56~58

[2]岳朝龙,王琳.股票价格的灰色——马尔柯夫预测[J].系统工程,1999,11:54~59

[3]贾 华,祝国瑞.土地利用规划中农作物单产预测的灰色——马尔柯夫链方法 [J].武汉测绘科技大学学报,1998,23 (2):149~152

[4]刘耀林,刘艳芳,张玉梅.基于灰色——马尔柯夫模型的耕地总量预测模型[J].武汉大学学报.信息科学版2004,29 (7):575~580