当前位置:首页 » 分析预测 » 基于主成分分析的股票分析
扩展阅读
怎么看股票盘子大不大 2025-07-23 12:05:30
两融账户可以买多少股票 2025-07-23 11:23:50

基于主成分分析的股票分析

发布时间: 2021-09-07 17:03:22

① 主成分分析法源解析

比值法可以定性地解释研究区PAHs的污染来源,但是不能进行定量的描述,且还有一定的局限性。因此本研究将通过对PAHs数据的因子分析和多元回归分析,可以半定量地了解各种污染源对研究区PAHs总量的贡献率。

主成分分析(PrincipalComponentsAnalysis,PCA)和因子分析是进行数据降维的常用方法,是把多个变量(指标)化为少数几个可以反映原来多个变量的大部分信息的综合变量(综合指标)的一种方法。主成分分析可直接将数据映射到唯一正交坐标系,因子分析可以进一步通过旋转坐标系,使被提取出来的因子具有最小的协方差,使每个因子代表的变量更明显,从而支持污染源识别。Wangetal.(2009)运用空间和多元分析对北京表土(0~10cm)PAHs的分布特征和污染来源进行了研究,结果表明,煤的燃烧和汽车尾气的排放、石油源及焦炭源分别是商业区、市内和郊区的主要污染源,这与北京的能源消耗及功能区划的空间分布特征密切相关。

对污灌区表土的14种PAHs进行主成分分析,结果表明,前两个因子说明了100%的方差,其中第一个主成分F1占方差的68.36%,第二个主成分F2占方差的31.64%,因此这两个主因子可以说明PAHs的污染来源。

由表4.13可以看出,第一个主成分F1在变量苯并[a]芘、苯并[b]荧蒽、苯并[g,h,i]苝、苯并[k]荧蒽、二苯并[a,h]蒽、二氢苊、芘、屈、茚并[1,2,3-cd]芘上有高的正负荷,同时也可以看出大部分是高环的PAHs。根据文献报道(Harrisonetal.,1996;Mastraletal.,1996),荧蒽、芘、屈、苯并[k]荧蒽是煤燃烧产物的典型标志。屈、苯并[b]荧蒽、苯并[g,h,i]苝、苯并[k]荧蒽、二苯并[a,h]蒽、苯并[a]芘、茚并[1,2,3-cd]芘表征汽车尾气的排放(Simciketal.,1999;Motelay-Masseietal.,2007)。因此,第一主成分F1可表征的污染源为煤的燃烧和汽车尾气的排放。

表4.13 污灌区土壤的方差极大旋转后的主因子载荷

注:提取方法为主成分分析法。施转方法为Varimax与Kaiser规范化。3次迭代汇成的旋转。

第二个主成分F2在萘、菲、芴、荧蒽、苊上有较高的正负荷,反映的是低环的PAHs。据Simciketal.(1999)的研究发现,二氢苊、菲、芴是焦炭源的主要产物。蒽和苊是石油源的主要产物,其中包括在生产和运输过程中石油及其相关产品的泄漏和溢洒。因此第二个主成分F2可表征的污染源为焦炭源和石油源。

运用SPSS对主因子分析所得的结果进行多元回归分析,进一步估算每种PAHs源的贡献率,因变量为PAHs总量的标准化分数,自变量为各因子的得分,得出的回归方程为

∑PAHs=0.393F1+0.919F2

各因子的贡献率根据公式 计算,其中Ai为每个因子的回归系数。

根据上述公式可以计算出,污灌区土壤PAHs污染中两个主因子的贡献率分别为F1(煤的燃烧和汽车尾气)30%,F2(焦炭源和石油源)70%。可见主成分分析法再次说明了污灌区土壤剖面PAHs的主要来源为石油源和燃烧源的输入,其中石油源的输入比重较大,这一结果与比值法所得结果相吻合。

对再生水灌区表土的PAHs进行主成分分析,结果表明,前两个因子说明了100%的方差,其中第一个主成分F1占方差的79.39%,第二个主成分F2占方差的20.61%,因此这两个主因子可以说明PAHs的污染来源。

由表4.14可以看出,第一个主成分F1在变量苯并[a]芘、苯并[b]荧蒽、苯并[g,h,i]苝、苯并[k]荧蒽、蒽、二苯并[a,h]蒽、苊、芘、屈、茚并[1,2,3-cd]芘、荧蒽上有高的正负荷,同时也可以看出大部分是高环的PAHs。根据上面的文献报道可得出,第一主成分F1可表征的污染源为煤的燃烧、汽车尾气的排放和石油源。

表4.14 再生水灌区土壤的方差极大旋转后的主因子载荷

第二个主成分F2在菲、芴上有较高的正负荷,反映的是低环的PAHs。第二个主成分F2可表征的污染源为焦炭源。

运用SPSS对主因子分析所得的结果进行多元回归分析,进一步估算每种PAHs源的贡献率,得出的回归方程为

∑PAHs=0.980F1+0.198F2

根据因子贡献率公式可以计算出,再生水灌区土壤PAHs污染中两个主因子的贡献率分别为F1(煤的燃烧、汽车尾气、石油源)83.2%,F2(焦炭源)16.8%。可见再生水灌区土壤剖面PAHs的主要来源为煤的燃烧、汽车尾气的排放和部分石油源的输入。

对清灌区表土的PAHs进行主成分分析,结果表明,前两个因子说明了100%的方差,其中第一个主成分F1占方差的69.72%,第二个主成分F2占方差的30.28%,因此这两个主因子可以说明PAHs的污染来源。

由表4.15可以看出,第一个主成分F1在变量苯并[a]芘、苯并[b]荧蒽、苯并[g,h,i]苝、苯并[a]蒽、荧蒽、芘、屈、茚并[1,2,3-cd]芘上有高的正负荷,同时也可以看出主要是高环的PAHs。根据上面的文献报道可得出,第一主成分F1可表征的污染源为煤的燃烧、汽车尾气的排放。

表4.15 清灌区土壤的主因子载荷

注:用主成分分析法提取出两个因子。

第二个主成分F2在菲、芴上有较高的正负荷,反映的是低环的PAHs。第二个主成分F2可表征的污染源为焦炭源。

运用SPSS对主因子分析所得的结果进行多元回归分析,进一步估算每种PAHs源的贡献率,得出的回归方程为

∑PAHs=0.981F1+0.193F2

根据因子贡献率公式可以计算出,再生水灌区土壤PAHs污染中两个主因子的贡献率分别为F1(煤的燃烧、汽车尾气)83.6%,F2(焦炭源)16.4%。可见清灌区土壤剖面PAHs的主要来源为煤的燃烧和汽车尾气的排放。

从以上分析可以看出,3个灌区土壤的PAHs污染来源主要是煤的燃烧、汽车尾气的排放、焦炭源和石油源,只是各个污染源所占的比重不同而已。因此控制北京地区汽车的保有量,加强清洁能源的推广,继续缩减煤炭在能源结构中的比重,并加强石油储藏、运输过程中的管理,可以有效地减少PAHs的污染。

这里需要说明的是,由于PAHs在环境中可能会因挥发、淋滤、降解、光解等过程而产生损失或丢失,造成“源”信息的失真,在一定程度上影响了其有效地示踪环境中该类污染物的来源。如本研究中由于污水的长期灌溉,使低环的PAHs会向下层土壤中迁移,因此表土中低环PAHs的含量会不断地发生变化,从而导致表土的PAHs的组成发生相应的变化,进而影响PAHs的来源分析。此外灌溉用水沿渠道流动水质的改变也会影响到PAH来源的判别。

② 主成分分析法和logistic回归的区别是什么基于主成分分析的logistic回归更好吗

单纯的logistic模型用处不是很大,往往和其他方法结合比较多,你说的和主成分分析法结合的方法应该说功能更强大,对问题考虑的更全面,这在数学建模中常会用到,满意请采纳!

③ 主成分分析为什么是多维标度分析的一个特例

主成分分析法和层次分析法异同
1.基于相关性分析的指标筛选原理
两个指标之间的相关系数,反映了两个指标之间的相关性。相关系数越大,两个指标反映的信息相关性就越高。而为了使评价指标体系简洁有效,就需要避免指标反映信息重复。通过计算同一准则层中各个评价指标之间的相关系数,删除相关系数较大的指标,避免了评价指标所反映的信息重复。通过相关性分析,简化了指标体系,保证了指标体系的简洁有效。
2.基于主成分分析的指标筛选原理
(1)因子载荷的原理
通过对剩余多个指标进行主成分分析,得到每个指标的因子载荷。因子载荷的绝对值小于等于1,而绝对值越是趋向于1,指标对评价结果越重要。
(2)基于主成分分析的指标筛选原理
因子载荷反映指标对评价结果的影响程度,因子载荷绝对值越大表示指标对评价结果越重要,越应该保留;反之,越应该删除。通过对相关性分析筛选后的指标进行主成分分析,得到每个指标的因子载荷,从而删除因子载荷小的指标,保证筛选出重要的指标。
3.相关性分析和主成分分析相同点
一是,基于相关性分析的指标筛选和基于主成分分析的指标筛选,均是在准则层内进行指标的筛选处理,准则层之间不进行筛选。这种做法的原因是,通过人为地划分不同准则层,反映评价事物不同层面的状况,避免误删反应信息不同的重要指标。
二是,基于相关性分析的指标筛选和基于主成分分析的指标筛选的思路,均是筛选出少量具有代表性的指标。
4.相关性分析和主成分分析不同点
一是,两次筛选的目的不同:基于相关性分析的指标筛选的目的是删除反应信息冗余的评价指标。基于主成分分析的指标筛选的目的是删除对评价结果影响较小的评价指标。
二是,两次筛选的作用不同:基于相关性分析的指标筛选的作用是保证蹄选出的评价指标体系简洁明快。基于主成分分析的指标简选的目的是筛选出重要的指标。

④ 基于主成分分析的岩性信息提取

1. 主成分分析基本原理

主成分分析法 ( Principal Component Analysis,PCA) 是多变量统计方法中的一种,该概念首先由 Karl Pearson 在1901 年提出,当时只限于非随机变量的讨论,1933 年 Hotelling将该概念推广到随机变量。主成分分析法通过将具有一定相关性的多个指标转化为少数几个综合性指标,在确保数据信息丢失最少的前提下对高维变量空间作降维处理,因此是综合处理上述多变量问题的一种强有力的工具。若需要解决的问题中指标数越多且各指标间相关程度越密切,则主成分分析法降维处理的优越性越能得到充分体现。

在多光谱遥感影像中,各个波段影像之间存在相关性,并包含了冗余信息,基于主成分分析的基本思想是,将一组线性相关的变量变为一组相互独立的、相互正交的变量,而新的变量是输入变量的线性组合。这样就能消除各个波段影像之间的信息冗余。这种方法,所得到的结果是能够改变 P 个波段影像变换到 Y ( Y < P) 个主分量的像素定义,能够简化多光谱影像的数据处理过程,但不损失原影像信息。有关主成分分析的详细基本原理参见第四章第三节 K - L 变换。

2. 基于 TM 影像主成分分析实例

选取研究区内蒙古大青山地区色尔腾山一段 TM 影像的 710 ×470 子区进行试验研究( 周成虎,2003) 。该区出露的岩石主要为: 桑干群 ( Ar1Sg) 片麻岩夹大理岩组、五台群( Ar2Wt) 绿 泥 片 岩 和 绢 云 石 英 片 岩 夹 含 铁 石 英 岩; 侏 罗 系的 中、下 统 石 拐 群 ( J1 - 2Sh1 - 2,3) 砂页岩组和砾岩组; 燕山早期肉红色中细粒钾长花岗岩 ( γ25) ,加里东晚期灰绿色细粒黑云母花岗岩 ( γo33) ( 图 7-13) 。

TM 数据的轨道号为: PATH-128,ROW = 32,由于 TM 第 6 波段空间分辨率较低,因而未利用,只对其余六个波段进行了主成分分析和对应分析处理。

对所选影像进行主成分分析,特征向量矩阵见表 7-3。

分析表 7-3,可得出如下几点结论:

( 1) 在 PC1 主成分上,六个波段均为正值,其中第 5 波段贡献最大,其次是波段 7,4 和 3。总体说来,PC1 主成分反映的是影像六个波段的加信息,反映在 PC1 影像,主要表现的是亮度信息和地形信息。

( 2) PC2 主成分是波段 4,5,7 的和减去波段 1,2,3 的和的线性变换,其中第 1 波段与 PC2 呈明显的负相关。

( 3) PC3 主成分是波段 1,5,7 的和减去波段 2,3,4 的和的线性组合,其中除波段1 之外,其余波段对 PC2 主成分的贡献基本相同。

( 4) PC4 主成分主要反映的是波段 5 的减信息和波段 7 的加信息。

( 5) 波段 2 和波段 4 对 PC5 主成分的贡献最大,其中波段 2 为加信息,波段 4 为减信息,PC5 是它们的体现。

图 7-13 色尔腾山矿产地质示意图( 据内蒙古地区矿产局 1∶20 万佘太镇矿产图)

表 7-3 主成分分析的特征向量矩阵

( 6) PC6 是波段 2 和波段 4 的加信息与波段 3 的减信息的线性组合。

图 7-14 是上述六个特征向量 ( 主成分) 反变换后的影像。

从图 7-14 的六个主成分影像看,主成分 5,4,3 ( PC5,PC4,PC3) 较好地反映了该区的岩性信息。另外,各种岩石在这三个主成分影像上的反差也大,故选取 PC5,PC4,PC3 作假彩色 RGB 合成,结果很好地进行了该区岩性的提取和区分。将结果与地质示意图相对照,基本吻合。与原始影像 1,4,7 波段的假彩色合成影像相比,岩性信息更加突出 ( 图版 11) 。

图 7-14 研究区 TM 影像的六个主成分影像( 据周成虎等,2003)

⑤ 请教SPSS高人,主成份分析和因子分析有什么不同做主成分分析目的是什么谢谢

主成分分析和因子分析都是信息浓缩的方法,即将多个分析项信息浓缩成几个概括性指标。如果希望进行将指标命名,SPSSAU建议使用因子分析。原因在于因子分析在主成分基础上,多出一项旋转功能,该旋转目的即在于命名。

主成分分析目的在于信息浓缩(但不太关注主成分与分析项对应关系),权重计算,以及综合得分计算。

同时SPSSAU可直接保存因子得分及综合得分,不需要手动计算。

⑥ 如何进行基于主成分的logistic分析

先做主成分分析,在对主成分做logit回归
主成分分析
1输入数据。
2点Analyze 下拉菜单,选Data Rection 下的Factor 。
3打开Factor Analysis后,将数据变量逐个选中进入Variables 对话框中。
4单击主对话框中的Descriptive按扭,打开Factor Analysis: Descriptives子对话框,在Statistics栏中选择Univariate Descriptives项要求输出个变量的均值与标准差,在Correlation Matrix 栏内选择Coefficients项,要求计算相关系数矩阵,单击Continue按钮返回Factor Analysis主对话框。
5单击主对话框中的Extraction 按钮,打开如下图所示的Factor Analysis: Extraction 子对话框。在Method列表中选择默认因子抽取方法——Principal Components,在Analyze 栏中选择默认的Correlation Matrix 项要求从相关系数矩阵出发求解主成分,在Exact 栏中选择Number of Factors;6, 要求显示所有主成分的得分和所能解释的方差。单击Continue按钮返回Factor Analysis主对话框。
6单击主对话框中的OK 按钮,输出结果。
统计专业研究生工作室原创,请勿复杂粘贴
二元logit回归
1.打开数据,依次点击:analyse--regression--binarylogistic,打开二分回归对话框。
2.将因变量和自变量放入格子的列表里,上面的是因变量,下面的是自变量(单变量拉入一个,多因素拉入多个)。
3.设置回归方法,这里选择最简单的方法:enter,它指的是将所有的变量一次纳入到方程。其他方法都是逐步进入的方法。
4.等级资料,连续资料不需要设置虚拟变量。多分类变量需要设置虚拟变量。
虚拟变量ABCD四类,以a为参考,那么解释就是b相对于a有无影响,c相对于a有无影响,d相对于a有无影响。
5.选项里面至少选择95%CI。
点击ok。
统计专业研究生工作室原创,请勿复杂粘贴