㈠ 加權馬爾科夫鏈是什麼原理
由於每個時段的股票價格序列是一列相依的隨機變數,各階自相關系數刻畫了各種滯時(各個時段)的股票價格之間的相關關系的強弱。因此,可考慮先分別依其前面若干時段的股票價格(對應的狀態)對該時間段股票價格的狀態進行預測,然後,按前面各時段與該時段相依關系的強弱加權求和來進行預測和綜合分析,即可以達到充分、合理地利用歷史數據進行預測的目的,而且經這樣分析之後確定的投資策略也應該是更加合理的。這就是加權馬爾可夫鏈預測的基本思想。
㈡ 您好,我想問問您的一個回答的論文題目,百度知道上的問題是:(以下補充)謝謝!
摘 要 研究了滬深300指數日收益率時間序列,經檢驗其具有馬氏性,並建立了馬爾可夫鏈模型。取交易日分時數據,根據分時數據確定狀態初始概率分布,通過一步轉移概率矩陣對下一交易日的日收益率進行了預測。對該模型分析和計算,得出其為有限狀態的不可約、非周期馬爾可夫鏈,求解其平穩分布,從而得到滬深300指數日收益率概率分布。並預測了滬深300指數上漲或下跌的概率,可為投資管理提供參考。
關鍵詞 馬爾可夫鏈模型 滬深300指數 日收益率概率分布 平穩分布
1 引言
滬深300指數於2005年4月正式發布,其成份股為市場中市場代表性好,流動性高,交易活躍的主流投資股票,能夠反映市場主流投資的收益情況。眾多證券投資基金以滬深300指數為業績基準,因此對滬深300指數收益情況研究顯得尤為重要,可為投資管理提供參考。
取滬深300指數交易日收盤價計算日收益率,可按區間將日收益率分為不同的狀態,則日收益率時間序列可視為狀態的變化序列,從而可以嘗試採用馬爾可夫鏈模型進行處理。馬爾可夫鏈模型在證券市場的應用已取得了不少成果。參考文獻[1]、[2]、[3]和[4]的研究比較類似,均以上證綜合指數的日收盤價為對象,按漲、平和跌劃分狀態,取得了一定的成果。但只取了40~45個交易日的數據進行分析,歷史數據過少且狀態劃分較為粗糙。參考文獻[5]和[6]以上證綜合指數周價格為對象,考察指數在的所定義區間(狀態)的概率,然其狀態偏少(分別只有6個和5個狀態),區間跨度較大,所得結果實際參考價值有限。參考文獻[7]對單只股票按股票價格劃分狀態,也取得了一定成果。
然而收益率是證券市場研究得更多的對象。本文以滬深300指數日收益率為對考察對象進行深入研究,採用matlab7.1作為計算工具,對較多狀態和歷史數據進行了處理,得出了滬深300指數日收益率概率分布,並對日收益率的變化進行了預測。
2 馬爾可夫鏈模型方法
2.1 馬爾可夫鏈的定義
設有隨機過程{Xt,t∈T},T是離散的時間集合,即T={0,1,2,L},其相應Xt可能取值的全體組成狀態空間是離散的狀態集I={i0,i1,i2,L},若對於任意的整數t∈T和任意的i0,i1,L,it+1∈I,條件概率則稱{Xt,t∈T}為馬爾可夫鏈,簡稱馬氏鏈。馬爾可夫鏈的馬氏性的數學表達式如下:
P{Xn+1=in+1|X0=i0,X1=i1,L,Xn=in}=P{Xn+1=in+1|Xn=in} (1)
2.2 系統狀態概率矩陣估計
馬爾可夫鏈模型方法的基本內容之一是系統狀態的轉移概率矩陣估算。估算系統狀態的概率轉移矩陣一般有主觀概率法和統計估演算法兩種方法。主觀概率法一般是在缺乏歷史統計資料或資料不全的情況下使用。本文採用統計估演算法,其主要過程如下:假定系統有m種狀態S1,S2,L,Sm根據系統的狀態轉移的歷史記錄,可得到表1的統計表格。其中nij表示在考察的歷史數據范圍內系統由狀態i一步轉移到狀態j的次數,以■ij表示系統由狀態i一步轉移到狀態的轉移概率估計量,則由表1的歷史統計數據得到■ij的估計值和狀態的轉移概率矩陣P如下:
■ij=nij■nik,P=p11 K p1mM O Mpm1 L pmn(2)
2.3 馬氏性檢驗
隨機過程{Xt,t∈T}是否為馬爾可夫鏈關鍵是檢驗其馬氏性,可採用χ2統計量來檢驗。其步驟如下:(nij)m×m的第j列之和除以各行各列的總和所得到的值記為■.j,即:
■.j=■nij■■nik,且■ij=nij■nik(3)
當m較大時,統計量服從自由度為(m-1)2的χ2分布。選定置信度α,查表得χ2α((m-1)2),如果■2>χ2α((m-1)2),則可認為{Xt,t∈T}符合馬氏性,否則認為不是馬爾可夫鏈。
■2=2■■nijlog■ij■.j(4)
2.4 馬爾可夫鏈性質
定義了狀態空間和狀態的轉移概率矩陣P,也就構建了馬爾可夫鏈模型。記Pt(0)為初始概率向量,PT(n)為馬爾可夫鏈時刻的絕對概率向量,P(n)為馬爾可夫鏈的n步轉移概率矩陣,則有如下定理:
P(n)=PnPT(n)=PT(0)P(n)(5)
可對馬爾可夫鏈的狀態進行分類和狀態空間分解,從而考察該馬爾可夫鏈模型的不可約閉集、周期性和遍歷性。馬爾可夫鏈的平穩分布有定理不可約、非周期馬爾可夫鏈是正常返的充要條件是存在平穩分布;有限狀態的不可約、非周期馬爾可夫鏈必定存在平穩過程。
3 馬爾可夫鏈模型方法應用
3.1 觀測值的描述和狀態劃分
取滬深300指數從2005年1月4日~2007年4月20日共555個交易日收盤價計算日收益率(未考慮分紅),將日收益率乘以100並記為Ri,仍稱為日收益率。計算公式為:
Ri=(Pi-Pi-1)×100/Pi-1(6)
其中,Pi為日收盤價。
滬深300指數運行比較平穩,在考察的歷史數據范圍內日收益率有98.38%在[-4.5,4.5]。可將此范圍按0.5的間距分為18個區間,將小於-4.5和大於4.5各記1區間,共得到20個區間。根據日收益率所在區間劃分為各個狀態空間,即可得20個狀態(見表2)。
3.2 馬氏性檢驗
採用χ2統計量檢驗隨機過程{Xt,t∈T}是否具有馬氏性。用前述統計估演算法得到頻率矩陣(nij)20×20。
由(3)式和(4)式可得:■.j=■nij■■nik,且■ij=nij■nik,■2=2■■nijlog■ij■.j=446.96,令自由度為k=(m-1)2即k=361,取置信度α=0.01。由於k>45,χ2α(k)不能直接查表獲得,當k充分大時,有:
χ2α(k)≈■(zα+■)2(7)
其中,zα是標准正態分布的上α分位點。查表得z0.01=2.325,故可由(1)、(7)式得,即統計量,隨機過程{Xt,t∈T}符合馬氏性,所得模型是馬爾可夫鏈模型。
3.3 計算轉移概率矩陣及狀態一步轉移
由頻率矩陣(nij)20×20和(1)、(2)式得轉移概率矩陣為P=(Pij)20×20。考察2007年4月20日分時交易數據(9:30~15:30共241個數據),按前述狀態劃分方法將分時交易數據收益率歸於各狀態,並記Ci為屬於狀態i的個數,初始概率向量PT(0)=(p1,p2,L,pt,L,p20),則:
pj=Cj/241,j=1,2,K,20(8)
下一交易日日收益率分布概率PT(0)={p1(1),p2(1),L,pi(1),L,p20(1)},且有PT(1)-PT(0)p,計算結果如表3所示。
3.4 馬爾可夫鏈遍歷性和平穩分布
可以分析該馬爾可夫鏈的不可約集和周期性,從而進一步考察其平穩分布,然而其分析和求解非常復雜。本文使用matlab7.1採用如下演算法進行求解:將一步轉移概率矩陣P做乘冪運算,當時Pn+1=Pn停止,若n>5 000亦停止運算,返回Pn和n。計算發現當n=48時達到穩定,即有P(∞)=P(48)=P48。考察矩陣P(48)易知:各行數據都相等,不存在數值為0的行和列,且任意一行的行和為1。故該馬爾可夫鏈{Xt,t∈T}只有一個不可約集,具有遍歷性,且存在平穩分布{πj,j∈I},平穩分布為P(48)任意一行。從以上計算和分析亦可知該馬爾可夫鏈是不可約、非周期的馬爾可夫鏈,存在平穩分布。計算所得平穩分布如表4所示。
3.5 計算結果分析
表3、表4給出了由當日收益率統計出的初始概率向量PT(0),狀態一步預測所得絕對概率向量PT(1)和日收益率平穩分布,由表3和表4綜合可得圖1。可以看出,雖然當日(2007年4月20日)收益率在區間(1.5,4.5)波動且在(2.5,4.5)內的概率達到了0.7261,表明在2007年4月20日,日收益率較高(實際收盤時,日收益率為4.41),但其下一交易日和從長遠來看其日收益率概率分布依然可能在每個區間。這是顯然的,因為日收益率是隨機波動的。
對下一交易日收益率預測(PT(1)),發現在下一交易日收益率小於0的概率為0.4729,大於0的概率為0.5271,即下一交易日收益率大於0的概率相對較高,其中在區間(-2,-1.5)、(0.5,1)和(1,1.5)概率0.2675、0.161和0.1091依次排前三位,也說明下一交易日收益率在(-2,-1.5)的概率會比較高,有一定的風險。
從日收益率長遠情況(平穩分布)來看,其分布類似正態分布但有正的偏度,說明其極具投資潛力。日收益率小於0的概率為0.4107,大於0的概率為0.5893,即日收益率大於0的概率相當的高於其小於0的概率。
4 結語
採用馬爾可夫鏈模型方法可以依據某一交易日收益率情況向對下一交易日進行預測,也可得到從長遠來看其日收益率的概率分布,定量描述了日收益率。通過對滬深300指數日收益率分析和計算,求得滬深300指數日收益率的概率分布,發現滬深300指數日收益率大於0的概率相對較大(從長遠看,達到了0.5893,若考慮分紅此概率還會變大),長期看來滬深300指數表現樂觀。若以滬深300指數構建指數基金再加以調整,可望獲得較好的回報。
筆者亦採用范圍(-5,5)、狀態區間間距為1和范圍(-6,6)、狀態區間間距為2進行運算,其所得結果類似。當採用更大的范圍(如-10,10等)和不同的區間大小進行運算,計算發現若狀態劃分過多,所得模型不易通過馬氏性檢驗,如何更合理的劃分狀態使得到的結果更精確是下一步的研究之一。在後續的工作中,採用ANN考察所得的日收益率預測和實際日收益率的關系也是重要的研究內容。馬爾可夫鏈模型方法也可對上證指數和深證成指數進行類似分析。
參考文獻
1 關麗娟,趙鳴.滬綜指走勢的馬爾可夫鏈模型預測[J].山東行政學院,山東省經濟管理幹部學院學報,2005(4)
2 陳奕余.基於馬爾可夫鏈模型的我國股票指數研究[J].商場現代化(學術研討),2005(2)
3 肖澤磊,盧悉早.基於馬爾可夫鏈系統的上證指數探討[J].科技創業月刊,2005(9)
4 邊廷亮,張潔.運用馬爾可夫鏈模型預測滬綜合指數[J].統計與決策,2004(6)
5 侯永建,周浩.證券市場的隨機過程方法預測[J].商業研究,2003(2)
6 王新蕾.股指馬氏性的檢驗和預測[J].統計與決策,2005(8)
7 張宇山,廖芹.馬爾可夫鏈在股市分析中的若干應用[J].華南理工大學學報(自然科學版),2003(7)
8 馮文權.經濟預測與決策技術[M].武漢:武漢大學出版社,2002
9 劉次華.隨機過程[M].武漢:華中科技大學出版社,2001
10 盛千聚.概率論與數理統計[M].北京:高等教育出版社.1989轉
㈢ 馬爾科夫 初始概率和絕對概率怎麼計算
以上海證券交易所綜合指數日漲跌幅數據為樣本數據,利用馬爾克夫分析法分析了綜合指數漲跌幅所處各種狀態的初始概率和轉移概率,在此基礎上,提出了一種預測股市指數漲跌幅的新方法。
2.
We assume that the changing of the stock price is the homogeneous Markov chain,there are up and down states,initial probability is stationary.
模型假設股票價格變化滿足齊次馬氏性,並具有漲跌兩種狀態,初始概率的分布是平穩分布,建立了相應的模型,給出了模型中未知參數的極大似然估計,並將模型應用於確定上證綜合指數、深證成指及個股的漲跌趨勢,得到了令人滿意的結果。
㈣ 02 隱馬爾可夫模型 - HMM的三個問題 - 概率計算問題
01 隱馬爾可夫模型 - 馬爾可夫鏈、HMM參數和性質
假設有三個盒子,編號為1,2,3;每個盒子都裝有黑白兩種顏色的小球,球的比例。如下:
按照下列規則的方式辯姿虧進行有放回的抽取小球,得到球顏色的觀測序列:
1、按照π的概率選擇一個盒子,從盒子中隨機抽取出一個球,記錄顏色後放回盒子中;
2、按照某種條件概率選擇新的盒子,重復該操作;
3、最終得到觀測序列:「白黑白白黑」
例如: 每次抽盒子按一定的概率來抽,也可以理解成隨機抽。
第1次抽了1號盒子①,第2次抽了3號盒子③,第3次抽了2號盒子②.... ; 最終如下:
①→③→②→②→③ 狀態值
白→黑→白→白→黑 觀測值
1、 狀態集合: S={盒子1,盒子2,盒子3}
2、 觀測集合: O={白,黑}
3、 狀態序列和觀測序列的長度 T=5 (我抽了5次)
4、 初始概率分布: π 表示初次抽時,抽到1盒子的概率是0.2,抽到2盒子的概率是0.5,抽到3盒子的概率是0.3。
5、 狀態轉移概率矩陣 A:a11=0.5 表示當前我抽到1盒子,下次還抽到1盒子的概率是0.5;
6、 觀測概率矩陣 - 混淆矩陣 - 為了不和之前的混淆矩陣概冊猛念沖突,可以稱攜神之為發射矩陣,即從一個狀態發射到另一個狀態: B:如最初的圖,b11=第一個盒子抽到白球概率0.4,b12=第一個盒子抽到黑球概率0.6;
在給定參數π、A、B的時候,得到觀測序列為「白黑白白黑」的概率是多少?
這個時候,我們不知道隱含條件,即不知道狀態值:①→③→②→②→③ ;
我們如何根據π、A、B求出測序列為「白黑白白黑」的概率?
下面給出解決方案。
前向-後向演算法 給定模型λ=(A,B,π)和觀測序列Q={q1,q2,...,qT},計算模型λ下觀測到序列Q出現的概率P(Q|λ);
回顧上面的案例 ,λ=(A,B,π)已知。觀測到序列 Q=白→黑→白→白→黑,但我們不知道 狀態序列 I=①→③→②→②→③;我們要求解 P(Q|λ) ,即Q=白→黑→白→白→黑 這個觀測序列發生的概率。 可以用前向-後向演算法來實現 。
Baum-Welch演算法(狀態未知) 已知觀測序列Q={q1,q2,...,qT},估計模型λ=(A,B,π)的參數,使得在該模型下觀測序列P(Q|λ)最大。
Baum-Welch演算法是EM演算法的一個特例,專門用來 求解 隱馬爾科夫中隱狀態參數 λ=(A,B,π) 。即:根據已知的 觀測到序列 Q=白→黑→白→白→黑,去尋找整個模型的一組隱狀態參數λ=(A,B,π),使得在模型中 觀測序列 發生的可能性P(Q|λ)最大。
Viterbi演算法 給定模型λ=(A,B,π)和觀測序列Q={q1,q2,...,qT},求給定觀測序列條件概率P(I|Q,λ)最大的狀態序列I。
已知 觀測到序列 Q=白→黑→白→白→黑,當我們得到λ=(A,B,π)後,我們用 Viterbi演算法 求出在哪一種 狀態序列 發生的可能性最大,即,求出 狀態序列 I=①→③→②→②→③;即,抽取什麼樣的盒子順序,更可能得到白→黑→白→白→黑這種結果。
1、直接計演算法(暴力演算法)
2、前向演算法
3、後向演算法
類似KNN計算最近鄰時候的演算法。《 01 KNN演算法 - 概述 》
也就是說, 暴力演算法 需要一個個遍歷所有的狀態去計算當前狀態發生的概率。
按照概率公式,列舉所有可能的長度為T的狀態序列I={i1,i2,...,iT},求各個狀態序列I與觀測序列Q={q1,q2,...,qT}的聯合概率P(Q,I;λ),然後對所有可能的狀態序列求和,從而得到最終的概率P(Q;λ);
分析: 先思考這樣一個問題:生成「白-黑-白-白-黑」這樣的結果,是不是會有很多種盒子組合的序列來抽取,都會生成這樣一個結果?我把這些可能出現「白-黑-白-白-黑」結果的盒子序列的聯合概率求出來-P(Q,I;λ),即∑P(Q,I) = P(Q) ,P(Q) 是我們觀測到「白-黑-白-白-黑」結果時,符合這個結果的所有狀態序列I出現的概率。
公式運用:
設狀態序列 I=③→②→①→①→②; T=5;
P(I;λ) = π 3 a 32 a 21 a 11 a 12
因為: 在給定狀態序列I後,Q中的每個觀測值都獨立。(貝葉斯網路原理) 貝葉斯網路
所以: P(Q|I;λ)可以用聯乘的方式表示 (獨立可以使用聯合概率)
I = ③→②→①→①→②
Q=白→黑→白→白→黑
P(Q|I;λ) = b 3白 b 2黑 b 1白 b 1白 b 2黑
P(Q,I;λ) = P(Q|I;λ) × P(I;λ)
= b 3白 b 2黑 b 1白 b 1白 b 2黑 × π 3 a 32 a 21 a 11 a 12
若:
I 1 = ③→②→①→①→②
I 2 = ①→②→③→①→②
...
I T = ②→②→①→③→②
都能得出:
Q = 白→黑→白→白→黑
因為我所有的盒子都能取出黑球和白球,所以T的值=3 5 ;
∑P(Q,I;λ) 計算的是 I 1 ~ I T 這些狀態序列情況下,求出的P(Q,I;λ)的和。
前向 和 後向 演算法是運用某種遞歸(遞推)的方式,幫助我們盡快得求解最終結果。
解析: 如果 t 這一時刻觀察到的狀態是 q t = 雨天;其中y={干,濕,濕... 濕}共t個狀態。
先不考慮λ。
α t 是 1時刻~t時刻 所有觀測值y1,y2,...yt ,qt 出現的聯合概率。
β t 是 t+1時刻~T時刻 所有觀測值y t+1 ,y t+2 ,...y T 出現的聯合概率。
前向概率-後向概率 指的其實是在一個觀測序列中,時刻t對應的狀態為si的概率值轉換過來的信息。
分析2~3步的推導: 因為q 1 ~ q t 這些條件對 q t+1 ~ q T 的產生沒有影響 (理由:貝葉斯網路),所以這些條件可以去掉。
定義:給定λ,定義到時刻t部分觀測序列為q1,q2,...,qt且狀態為si的概率為 前向概率 。
記做:
在給定參數π、A、B的時候,得到觀測序列為「白黑白白黑」的概率是多少?
定義:給定λ,定義到時刻t狀態為si的前提下,從t+1到T部分觀測序列為qt+1,qt+2,...,qT的概率為 後向概率 。
記做:
分析上面的公式:
如果一共只有t個時間點,t+1的時刻不存在。那麼t+1以後發生的是必然事件。
所以 β t (i) = P(q t+1 ,q t+2 ,...,q T ) = 1;
如果實在不理解也沒關系,我們姑且認為認為定義了一個初始值,即 β T (i) = 1 ;
從T-1時刻,倒推到1時刻。
首先,β t+1 (j)是什麼?是t+1時刻,在狀態sj的前提下,下圖中圈起來這部分的聯合概率。
β t (j)是什麼?是t時刻,在狀態sj的前提下,下圖中圈起來這部分的聯合概率。
求給定模型λ和觀測序列Q的情況下,在時刻t處於狀態si的概率,記做:
單個狀態概率的意義主要是用於判斷在每個時刻最可能存在的狀態,從而可以得到一個狀態序列作為最終的預測結果。
求給定模型λ和觀測序列Q的情況下,在時刻t處於狀態si並時刻t+1處於狀態sj概率,記做:
03 隱馬爾可夫模型 - HMM的三個問題 - 學習問題
㈤ 01 隱馬爾可夫模型 - 馬爾可夫鏈、HMM參數和性質
先直白得講性質: 當前的狀態只和上一時刻有關,在上一時刻之前的任何狀態都和我無關。我們稱其 符合 馬爾可夫性質。
下面是理論化的闡述:
設{X(t), t ∈ T}是一個 隨機過程 ,E為其狀態空間,若對於任意的t1<t2< ...<tn<t,任意的x1,x2,...,xn,x∈E,隨機變數X(t)在已知變數X(t1)=x1,...,X(tn)=xn之下的條件分布函數只與X(tn)=xn有關,而與X(t1)=x1,...,X(tn-1)=xn-1無關,即條件分布函數 滿足 下列等式,此性質稱為 馬爾可夫性 ;如果隨機過程 滿足 馬爾可夫性,則該過程稱為馬爾可夫過程。
馬爾可夫鏈 是指具有馬爾可夫性質的隨機過程。在過程中,在給定當前信息的情況下,過去的信息狀態對於預測將來 狀態 是無關的。
例子: 在今天這個時間點而言,過去的股價走勢對我預測未來的股價是毫無幫助的。
PS:上面馬爾可夫鏈中提到的 狀態 ,在本例指的是 股價 。
在馬爾可夫鏈的每一步,系統根據 概率分布 ,可以從一個狀態變成另外一個狀態,也可以保持當前狀態不變。狀態的改變叫做 轉移 ,狀態改變的相關概率叫做 轉移概率 。
例子: 當前時間狀態下的股價,可以轉變成下一時刻的股價,股價的轉變即 狀態的改變 。這個狀態現在可以上升(股價提高),狀態也可以下降。我可以根據當前股票的價格去決定下一刻股價上升、下降、不變的概率。這種股價變動的概率稱為 狀態轉移概率 。
馬爾可夫鏈中的 三元素是 :狀態空間S、轉移概率矩陣P、初始概率分布π。
1、狀態空間S - 例: S是一個集合,包含所有的狀態 S 股價 ={高,中,低} ;
2、初始概率分布π - 例:
股價剛發行的時候有一個初始價格,我們認為初始價格為高的概率為50%,初始價格為中的概率是30%,初始價格為低的概率是20%。我們記股票價格的初始概率分布為:π=(0.5,0.3,0.2);對應狀態:(高、中、低); 初始概率分布是一個向量 ,如果有n個狀態,π是n維向量。
3、轉移概率矩陣P - 例:
現在有個股價為中,下一個時刻狀態轉變的可能性有三種,中→高、中→低、中→中;將三種轉變的概率。此外當前時刻也有股票的價格屬於低,對應的轉變可能包括低→高、低→低、低→中;即每種狀態都有可能轉變成其他的狀態,若一共有n個狀態,形成的 轉移概率矩陣 應該是n×n階矩陣。這里需要注意的是,股價從高→低,和低→高的概率是不同的。
設將天氣狀態分為晴、陰、雨三種狀態,假定某天的天氣狀態只和上一天的天氣狀態有關,狀態使用1(晴)、2(陰)、3(雨)表示,轉移概率矩陣P如下:
第n+1天天氣狀態為j的概率為:
因此,矩陣P即為條件概率轉移矩陣。矩陣P的第i行元素表示,在上一個狀態為i的時候的分布概率,即每行元素的和必須為1。
隱馬爾可夫模型(Hidden Markov Model, HMM)是一種統計模型,在語音識別、行為識別、NLP、故障診斷等領域具有高效的性能。
HMM是關於時序的概率模型,描述一個含有未知參數的馬爾可夫鏈所生成的不可觀測的狀態隨機序列,再由各個狀態生成觀測隨機序列的過程。
HMM是一個雙重隨機過程---具有一定狀態的隱馬爾可夫鏈和隨機的觀測序列。
HMM隨機生成的狀態隨機序列被稱為狀態序列;每個狀態生成一個觀測,由此產生的觀測隨機序列,被稱為觀測序列。
思考: z1,z2...,zn是 不可觀測的狀態,x1,x2,...xn是 可觀測到的序列 ;不可觀測的狀態覺得可觀測序列的值(z的取值決定x的取值);
1、在 z1、z2 不可觀測 的情況下,x1和z2獨立嗎?x1和x2獨立嗎?
回答: 這個問題可以回顧之前的 貝葉斯網路 來理解。
首先z1,z2都是離散的值,但x1的值可能是離散的也可能是連續的。比如z是天氣情況,每天天氣的改變是離散的。x是因為天氣而改變的一些其他狀態,比如x=(地面是否潮濕、路上行人數量、雨傘銷售數量...);
在z1和z2不可觀測的情況下,x1和z2不獨立,x1和x2也是不獨立的。
2、 在 z1、z2可觀測 的情況下,x1和z2獨立嗎?x1和x2獨立嗎?
回答: 在z1和z2可觀測的情況下,因為x1和z2的取值只和z1有關,所以就獨立了。同樣在給定了z1和z2的情況下,x1和x2也獨立。
請回顧貝葉斯網路中的獨立性問題來思考這個問題。
04 貝葉斯演算法 - 貝葉斯網路
回顧:
一般而言,貝葉斯網路的有向無環圖中的節點表示隨機變數,可以是可觀察到的變數,或隱變數,未知參數等等。連接兩個節點之間的箭頭代表兩個隨機變數之間的因果關系(也就是這兩個隨機變數之間非條件獨立);如果兩個節點間以一個單箭頭連接在一起,表示其中一個節點是「因」,另外一個節點是「果」,從而兩節點之間就會產生一個條件概率值。
PS:每個節點在給定其直接前驅的時候,條件獨立於其非後繼。
HMM 由隱含狀態S、可觀測狀態O、初始狀態概率矩陣π、隱含狀態轉移概率矩陣A、可觀測值轉移矩陣B(又稱為混淆矩陣,Confusion Matrix);
π和A決定了狀態序列,B決定觀測序列,因此HMM可以使用三元符號表示,稱為HMM的三元素:
S可以統計歷史出現的所有狀態;
初始概率分布π,統計S中各個狀態各自出現的概率作為我們的初始概率分布π向量值;
S是所有可能的狀態集合,O是所有可能的觀測集合:
I是長度為T的狀態序列,Q是對應的觀測序列:
S={下雨,陰天,晴天};O={地上干,地上濕}
I = {晴,雨,雨,陰,晴,陰}
Q={干,濕,濕,濕,干,干}
A是隱含狀態轉移概率矩陣:
其中aij是在時刻t處於狀態si的條件下時刻t+1轉移到狀態sj的概率。
a 晴雨 = 某天是晴天條件下,下一天是雨天的概率。 (某一時刻→下一時刻)
B是可觀測值轉移概率矩陣:
其中bij是在時刻t處於狀態si的條件下生成觀測值oj的概率。
b 晴干 = 某天是晴天條件下,某天是地是乾的的概率。 (同一時刻)
π是初始狀態概率向量:
其中πi是在時刻t=1處於狀態si的概率。
π 晴 = 初始第一天是晴天的概率;
π 雨 = 初始第一天是雨天的概率;
p(i t | .....) 表示在從 t-1時刻的觀測值q t-1 ,一直到第1時刻觀測值q1 的條件下,在第t時刻發生狀態的概率。
性質1: 最終分析結果發現,在第t時刻發生狀態的概率it只和t-1時刻有關。
性質2: 第t時刻的觀測值qt只和第t時刻的狀態it有關。
假設有三個盒子,編號為1,2,3;每個盒子都裝有黑白兩種顏色的小球,球的比例。如下:
按照下列規則的方式進行有放回的抽取小球,得到球顏色的觀測序列:
1、按照π的概率選擇一個盒子,從盒子中隨機抽取出一個球,記錄顏色後放回盒子中;
2、按照某種條件概率選擇新的盒子,重復該操作;
3、最終得到觀測序列:「白黑白白黑」
例如: 每次抽盒子按一定的概率來抽,也可以理解成隨機抽。
第1次抽了1號盒子①,第2次抽了3號盒子③,第3次抽了2號盒子②.... ; 最終如下:
①→③→②→②→③ 狀態值
白→黑→白→白→黑 觀測值
1、 狀態集合: S={盒子1,盒子2,盒子3}
2、 觀測集合: O={白,黑}
3、 狀態序列和觀測序列的長度 T=5 (我抽了5次)
4、 初始概率分布: π 表示初次抽時,抽到1盒子的概率是0.2,抽到2盒子的概率是0.5,抽到3盒子的概率是0.3。
5、 狀態轉移概率矩陣 A:a11=0.5 表示當前我抽到1盒子,下次還抽到1盒子的概率是0.5;
6、 觀測概率矩陣 B:如最初的圖,b11=第一個盒子抽到白球概率0.4,b12=第一個盒子抽到黑球概率0.6;
在給定參數π、A、B的時候,得到觀測序列為「白黑白白黑」的概率是多少?
這個時候,我們不知道隱含條件,即不知道狀態值:①→③→②→②→③ ;
我們如何根據π、A、B求出測序列為「白黑白白黑」的概率?
02 隱馬爾可夫模型 - HMM的三個問題 - 概率計算、學習、預測
㈥ 馬爾科夫鏈在經濟預測和決策中的應用
馬爾科夫鏈對經濟預測和決策是通過模型來進行的。
馬爾可夫鏈,是指數學中具有馬爾可夫性質的離散事件隨機過程。該過程中,在給定當前知識或信息的情況下,過去(即當前以前的歷史狀態)對於預測將來(即當前以後的未來狀態)是無關的。
馬爾科夫鏈是一種預測工具。適宜對很多經濟現象的描述。最為典型的就是對股票市場的分析。有人利用歷史數據預測未來股票或股市走勢,發現並不具備明顯的准確性,得出的結論是股市無規律可言。
經濟學者們用建立馬爾科夫鏈模型來進行預測和決策,一般分為三步,設定狀態,計算轉移概率矩陣,計算轉移的結果。
㈦ 城鎮地價指數的灰色——馬爾柯夫預測模型構建——以深圳市為例
劉敏1,2 劉艷芳1,2 張雅傑1,2 劉洋1,2 夏玉平3
(1.武漢大學資源與環境科學學院,武漢,430079;2.武漢大學教育部地理信息系統重點實驗室,武漢,430079;3.南方數碼科技有限公司,廣州,510665)
摘要:考慮到傳統地價指數編制的難度和信息的滯後性以及常用預測方法忽視地價指數是隨時間變化呈現上漲趨勢的非平穩隨機過程造成預測精度低的問題,通過為城鎮地價指數提供一種新的預測方法,滿足政府、開發商等市場主體對土地市場信息的需求,構建了城鎮地價指數灰色——馬爾柯夫預測模型,對深圳2004年第三、四季度地價指數進行預測,並將預測結果與實際值比較,吻合度較高。
關鍵詞:地價指數;灰色理論;馬爾柯夫;預測
地價指數是反映某一區域或某一城市的土地價格在時間上的平均變動和綜合變動方向及變動程度的相對指標,是城鎮土地市場變化的晴雨表,它體現的是基於規劃條件下的各規劃地塊之間的相對地價比例關系,在很大程度上消除了房地產估價的實效性約束。隨著社會主義市場經濟的發展,土地市場的日益活躍和完善,地價指數的重要性得到越來越多的體現,無論是政府對土地市場的宏觀管理,還是地產開發商的投資開發決策,或是土地估價中可比實例的交易日期修正,都離不開地價指數的指導。但採用傳統的方法測算地價指數難度大,本文試通過建立灰色——馬爾柯夫預測模型,採用某地區歷史的地價指數數據預測同一地區未來的地價指數,是地價指數預測在方法上的一種有創意的嘗試。
1 我國地價指數編制現狀
目前我國對地價指數的具體測算方法主要有兩種,即拉氏公式和帕氏公式。拉氏公式是以基期為權數綜合方法,表明在基期地價水平的條件下地價的綜合變化,公式為:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
式中,P為報告期的平均地價;P0 為基期的平均地價;q0 為基期土地交易量。
帕氏公式也是加權綜合指數公式,它與拉氏公式的區別在於是以報告期為權數的綜合方法,表明在報告期地價水平的條件下地價綜合變動的程度,公式為:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
式中,P、P0 分別為報告期和基期的平均地價;qk為報告期土地的交易量。
由於拉氏公式在定基指數的數列中各期權數相同,因此採用基於拉氏指數公式的加權平均指數公式測算的地價指數不僅能較好反映地價水平的變化、反映地價結構的影響,而且還可以很方便地計算環比地價指數,使地價指數的可比性增加,並有利於地價的動態研究,所以較常採用拉氏公式測算地價指數。
但無論採用拉氏公式還是採用帕氏公式都需要取得區域基期和報告期的平均地價數據,數據的獲取存在以下困難:①單純的土地交易較少,大部分的土地交易伴隨著房產交易,因此難以直接獲得土地的交易價格,一般要藉助估價手段,通過復雜的計算求取;②土地市場是不完全競爭市場,土地交易價格受主觀因素影響大,很多交易屬於非正常交易;③土地價格具有地區性和個別性特徵,因此不同地塊不僅價格不同,價格內涵也有可能不一致,因此要從地價的構成因素上對土地價格進行修正,直接測算地價指數難度也較大。
鑒於直接測算地價指數存在以上的困難,同時缺乏前瞻性,因此採用一定的數學方法,利用歷史的地價指數數據預測未來的地價指數具有實踐意義。目前地價指數預測較常採用趨勢外推法,利用計算機建立線性趨勢預測模型和二次曲線趨勢預測模型進行預測,但是這兩種預測模型沒有考慮到地價指數是隨時間變化呈現上漲趨勢的非平穩隨機過程,由於受各種隨機因素(如政府部門的土地供應政策、金融政策等)的影響,時序數據總是圍繞這一變化趨勢出現波動、跳躍,產生偏差,因此只能用於短期預測,對於長期預測就無法保證精度。
2 地價指數的灰色——馬爾柯夫預測思想
灰色預測和馬爾柯夫鏈預測是兩種用於時間序列類型問題的預測方法,灰色模型的優點是適於預測時間短,數據資料少,波動不大的系統對象,不足之處是對隨機波動大的數據序列預測准確度低;馬爾柯夫鏈理論優點是適於預測隨機波動大的動態過程,局限性在於馬爾柯夫鏈預測對象要求具有馬氏性和平穩過程等均值的特點,兩種方法具有互補性。
地價指數是受各種隨機因素影響而隨時間變化呈現上漲趨勢的非平穩隨機過程,因此如果將兩種預測方法有效的結合起來,先採用灰色模型對地價指數的時序數據進行擬合,找出其變化趨勢,則可以彌補馬爾柯夫鏈預測的局限,而在灰色預測的基礎上再進行馬爾柯夫預測,又可以彌補灰色預測對隨機波動大的數據序列預測准確度低的缺陷。
3 建立灰色——馬爾柯夫預測模型
3.1 建立GM (1,1) 模型
設原始序列為:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
其中,
X(1)可以通過求解一階線性微分方程:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
的解得到,其中a、u 為未知參數。
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
計算出a、u 後,可求出方程(2)的解為:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
由(5)式可對 X(1)做出預測,由累減生成得到原始數據序列 X(0)的預測,即:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
其中,
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
記
3.2 狀態劃分
在灰色預測的基礎上進行馬爾柯夫預測,必須將序列劃分為若干狀態。一般是以y^k曲線為基準,劃分成若干條形區域,每一條形區域構成一個狀態。其中任一狀態區間Qi 表達為:
Qi=[Q1i,Q2i] (i=1,2,3,…,n)
其中:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
Oi,Pi為常數,數值根據具體情況確定。由於
3.3 轉移矩陣的計算和確定預測值
轉移概率矩陣公式為:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
式中,
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
一般只需考察一步轉移概率矩陣P(1),但當狀態的未來轉向難以確定時,則需要考察多步轉移概率矩陣 P(m),多步轉移概率矩陣可以根據切普曼 -柯爾莫哥洛夫方程確定。
確定了預測對象未來的狀態轉移以後,即確定了預測值變動的灰區間Qi=[Q1i,Q2i],可以用區間的中位數作為預測對象未來時刻的預測值:
4 實證研究
4.1 選取樣本數據
深圳作為我國最早實行改革開放的地區,土地市場相對於其他城市而言要完善和發達許多,而綜合地價指數能較為准確的反映深圳土地價格的總體水平,具有較強的綜合性和趨勢性,鑒於數據獲取的可得性,筆者選取深圳 2001年第一季度到 2004年第二季度的綜合地價指數作為樣本數據,2004年第三第四季度的綜合地價指數作為檢驗數據。具體數據見表1。
表1 深圳2001年1季度~2004年4季度綜合地價指數
數據來源:深圳地價指數報告。
4.2 建立 GM (1,1) 模型
原始序列X(0)={100.00,100.39,100.23,101.04,101.13,100.86,101.05,101.11,100.97,102.37,101.46,103.02,103.34,103.32}
根據公式(1),一次累加序列 X(1)={100.00,200.39,300.62,401.66,502.79,603.65,704.70,805.81,906.78,1009.15,1111.61,1214.63,1317.97,1421.29}
根據公式(3)、(4)可求得
則
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
4.3 劃分狀態
根據深圳地價指數變化的實際情況,劃分為Q0 (持平)、Q1 (微升)、Q2 (上升)、Q3 (微降)和Q4 (下降)五種狀態。具體劃分標准如下:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
其中:
狀態Qi(i=0,1,2,3,4)表示原始數據序列X(0)偏離預測曲線
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
深圳2004年第二季度綜合地價指數處於Q0 狀態,考察一步轉移概率矩陣第一行可知,下一季度轉為狀態Q1、Q2 的概率均為1/2,因此根據此一步轉移概率矩陣無法預測深圳2004年第三季度綜合地價指數所處的狀態,需要進一步考察二步轉移概率矩陣。根據切普曼-柯爾莫哥洛夫方程確定二步轉移概率矩陣P(2),結果如下:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
考察此二步轉移概率矩陣第一行可知,處於Q0 狀態的第二季度綜合地價指數在第三季度轉為狀態Q1 的概率最大,概率值為0.67,因此可預測2004年第三季度綜合地價指數處於Q1,即微升狀態。指數預測值為:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
同理,根據第三季度地價指數預測值,判定其所處的狀態為 Q0,可預測出深圳2004年第四季度地價指數狀態轉向Q1,綜合地價指數值為:
表2 地價指數預測效果比較
由表2 預測結果可以看出,用灰色——馬爾柯夫模型對深圳2004年第三、四季度的綜合地價指數進行預測所得結果與現實數據吻合度較高。
5 結語
由於我國過去長期實行的是計劃經濟體制,土地市場的形成和發育時間都較短,因此土地市場信息相對較少,但是隨著市場經濟的不斷發展和完善,政府、開發商等市場主體對土地市場信息的需求越來越迫切,這在信息的供給與需求之間就形成了一種矛盾。本文建立的灰色——馬爾柯夫模型,綜合考慮了市場規律本身的趨勢性和國家的宏觀調控和大政方針對土地市場的影響造成地價指數的波動性,用城鎮較少的歷史地價指數數據預測城鎮未來的地價指數,並通過實例驗證預測結果與現實情況吻合度較高,能夠較好預測土地市場的價格走勢,較好地解決了土地市場貧信息和多需求的矛盾。
本文實例驗證採用的是市場化程度較高的深圳地價指數數據,但是由於我國目前大部分城市的土地市場發育程度還不理想,而且模型預測結果從根本上來說仍然需要市場交易資料的斧正,所以適用范圍和程度有一定限制,但不失為一種有益的嘗試。
參考文獻
[1]李何超,汪四文.論城鎮地價指數編制方法[J].城市發展研究,2000,4:56~58
[2]岳朝龍,王琳.股票價格的灰色——馬爾柯夫預測[J].系統工程,1999,11:54~59
[3]賈 華,祝國瑞.土地利用規劃中農作物單產預測的灰色——馬爾柯夫鏈方法 [J].武漢測繪科技大學學報,1998,23 (2):149~152
[4]劉耀林,劉艷芳,張玉梅.基於灰色——馬爾柯夫模型的耕地總量預測模型[J].武漢大學學報.信息科學版2004,29 (7):575~580