① 主成分分析法源解析
比值法可以定性地解釋研究區PAHs的污染來源,但是不能進行定量的描述,且還有一定的局限性。因此本研究將通過對PAHs數據的因子分析和多元回歸分析,可以半定量地了解各種污染源對研究區PAHs總量的貢獻率。
主成分分析(PrincipalComponentsAnalysis,PCA)和因子分析是進行數據降維的常用方法,是把多個變數(指標)化為少數幾個可以反映原來多個變數的大部分信息的綜合變數(綜合指標)的一種方法。主成分分析可直接將數據映射到唯一正交坐標系,因子分析可以進一步通過旋轉坐標系,使被提取出來的因子具有最小的協方差,使每個因子代表的變數更明顯,從而支持污染源識別。Wangetal.(2009)運用空間和多元分析對北京表土(0~10cm)PAHs的分布特徵和污染來源進行了研究,結果表明,煤的燃燒和汽車尾氣的排放、石油源及焦炭源分別是商業區、市內和郊區的主要污染源,這與北京的能源消耗及功能區劃的空間分布特徵密切相關。
對污灌區表土的14種PAHs進行主成分分析,結果表明,前兩個因子說明了100%的方差,其中第一個主成分F1占方差的68.36%,第二個主成分F2占方差的31.64%,因此這兩個主因子可以說明PAHs的污染來源。
由表4.13可以看出,第一個主成分F1在變數苯並[a]芘、苯並[b]熒蒽、苯並[g,h,i]苝、苯並[k]熒蒽、二苯並[a,h]蒽、二氫苊、芘、屈、茚並[1,2,3-cd]芘上有高的正負荷,同時也可以看出大部分是高環的PAHs。根據文獻報道(Harrisonetal.,1996;Mastraletal.,1996),熒蒽、芘、屈、苯並[k]熒蒽是煤燃燒產物的典型標志。屈、苯並[b]熒蒽、苯並[g,h,i]苝、苯並[k]熒蒽、二苯並[a,h]蒽、苯並[a]芘、茚並[1,2,3-cd]芘表徵汽車尾氣的排放(Simciketal.,1999;Motelay-Masseietal.,2007)。因此,第一主成分F1可表徵的污染源為煤的燃燒和汽車尾氣的排放。
表4.13 污灌區土壤的方差極大旋轉後的主因子載荷
注:提取方法為主成分分析法。施轉方法為Varimax與Kaiser規范化。3次迭代匯成的旋轉。
第二個主成分F2在萘、菲、芴、熒蒽、苊上有較高的正負荷,反映的是低環的PAHs。據Simciketal.(1999)的研究發現,二氫苊、菲、芴是焦炭源的主要產物。蒽和苊是石油源的主要產物,其中包括在生產和運輸過程中石油及其相關產品的泄漏和溢灑。因此第二個主成分F2可表徵的污染源為焦炭源和石油源。
運用SPSS對主因子分析所得的結果進行多元回歸分析,進一步估算每種PAHs源的貢獻率,因變數為PAHs總量的標准化分數,自變數為各因子的得分,得出的回歸方程為
∑PAHs=0.393F1+0.919F2
各因子的貢獻率根據公式 計算,其中Ai為每個因子的回歸系數。
根據上述公式可以計算出,污灌區土壤PAHs污染中兩個主因子的貢獻率分別為F1(煤的燃燒和汽車尾氣)30%,F2(焦炭源和石油源)70%。可見主成分分析法再次說明了污灌區土壤剖面PAHs的主要來源為石油源和燃燒源的輸入,其中石油源的輸入比重較大,這一結果與比值法所得結果相吻合。
對再生水灌區表土的PAHs進行主成分分析,結果表明,前兩個因子說明了100%的方差,其中第一個主成分F1占方差的79.39%,第二個主成分F2占方差的20.61%,因此這兩個主因子可以說明PAHs的污染來源。
由表4.14可以看出,第一個主成分F1在變數苯並[a]芘、苯並[b]熒蒽、苯並[g,h,i]苝、苯並[k]熒蒽、蒽、二苯並[a,h]蒽、苊、芘、屈、茚並[1,2,3-cd]芘、熒蒽上有高的正負荷,同時也可以看出大部分是高環的PAHs。根據上面的文獻報道可得出,第一主成分F1可表徵的污染源為煤的燃燒、汽車尾氣的排放和石油源。
表4.14 再生水灌區土壤的方差極大旋轉後的主因子載荷
第二個主成分F2在菲、芴上有較高的正負荷,反映的是低環的PAHs。第二個主成分F2可表徵的污染源為焦炭源。
運用SPSS對主因子分析所得的結果進行多元回歸分析,進一步估算每種PAHs源的貢獻率,得出的回歸方程為
∑PAHs=0.980F1+0.198F2
根據因子貢獻率公式可以計算出,再生水灌區土壤PAHs污染中兩個主因子的貢獻率分別為F1(煤的燃燒、汽車尾氣、石油源)83.2%,F2(焦炭源)16.8%。可見再生水灌區土壤剖面PAHs的主要來源為煤的燃燒、汽車尾氣的排放和部分石油源的輸入。
對清灌區表土的PAHs進行主成分分析,結果表明,前兩個因子說明了100%的方差,其中第一個主成分F1占方差的69.72%,第二個主成分F2占方差的30.28%,因此這兩個主因子可以說明PAHs的污染來源。
由表4.15可以看出,第一個主成分F1在變數苯並[a]芘、苯並[b]熒蒽、苯並[g,h,i]苝、苯並[a]蒽、熒蒽、芘、屈、茚並[1,2,3-cd]芘上有高的正負荷,同時也可以看出主要是高環的PAHs。根據上面的文獻報道可得出,第一主成分F1可表徵的污染源為煤的燃燒、汽車尾氣的排放。
表4.15 清灌區土壤的主因子載荷
注:用主成分分析法提取出兩個因子。
第二個主成分F2在菲、芴上有較高的正負荷,反映的是低環的PAHs。第二個主成分F2可表徵的污染源為焦炭源。
運用SPSS對主因子分析所得的結果進行多元回歸分析,進一步估算每種PAHs源的貢獻率,得出的回歸方程為
∑PAHs=0.981F1+0.193F2
根據因子貢獻率公式可以計算出,再生水灌區土壤PAHs污染中兩個主因子的貢獻率分別為F1(煤的燃燒、汽車尾氣)83.6%,F2(焦炭源)16.4%。可見清灌區土壤剖面PAHs的主要來源為煤的燃燒和汽車尾氣的排放。
從以上分析可以看出,3個灌區土壤的PAHs污染來源主要是煤的燃燒、汽車尾氣的排放、焦炭源和石油源,只是各個污染源所佔的比重不同而已。因此控制北京地區汽車的保有量,加強清潔能源的推廣,繼續縮減煤炭在能源結構中的比重,並加強石油儲藏、運輸過程中的管理,可以有效地減少PAHs的污染。
這里需要說明的是,由於PAHs在環境中可能會因揮發、淋濾、降解、光解等過程而產生損失或丟失,造成「源」信息的失真,在一定程度上影響了其有效地示蹤環境中該類污染物的來源。如本研究中由於污水的長期灌溉,使低環的PAHs會向下層土壤中遷移,因此表土中低環PAHs的含量會不斷地發生變化,從而導致表土的PAHs的組成發生相應的變化,進而影響PAHs的來源分析。此外灌溉用水沿渠道流動水質的改變也會影響到PAH來源的判別。
② 主成分分析法和logistic回歸的區別是什麼基於主成分分析的logistic回歸更好嗎
單純的logistic模型用處不是很大,往往和其他方法結合比較多,你說的和主成分分析法結合的方法應該說功能更強大,對問題考慮的更全面,這在數學建模中常會用到,滿意請採納!
③ 主成分分析為什麼是多維標度分析的一個特例
主成分分析法和層次分析法異同
1.基於相關性分析的指標篩選原理
兩個指標之間的相關系數,反映了兩個指標之間的相關性。相關系數越大,兩個指標反映的信息相關性就越高。而為了使評價指標體系簡潔有效,就需要避免指標反映信息重復。通過計算同一準則層中各個評價指標之間的相關系數,刪除相關系數較大的指標,避免了評價指標所反映的信息重復。通過相關性分析,簡化了指標體系,保證了指標體系的簡潔有效。
2.基於主成分分析的指標篩選原理
(1)因子載荷的原理
通過對剩餘多個指標進行主成分分析,得到每個指標的因子載荷。因子載荷的絕對值小於等於1,而絕對值越是趨向於1,指標對評價結果越重要。
(2)基於主成分分析的指標篩選原理
因子載荷反映指標對評價結果的影響程度,因子載荷絕對值越大表示指標對評價結果越重要,越應該保留;反之,越應該刪除。通過對相關性分析篩選後的指標進行主成分分析,得到每個指標的因子載荷,從而刪除因子載荷小的指標,保證篩選出重要的指標。
3.相關性分析和主成分分析相同點
一是,基於相關性分析的指標篩選和基於主成分分析的指標篩選,均是在准則層內進行指標的篩選處理,准則層之間不進行篩選。這種做法的原因是,通過人為地劃分不同准則層,反映評價事物不同層面的狀況,避免誤刪反應信息不同的重要指標。
二是,基於相關性分析的指標篩選和基於主成分分析的指標篩選的思路,均是篩選出少量具有代表性的指標。
4.相關性分析和主成分分析不同點
一是,兩次篩選的目的不同:基於相關性分析的指標篩選的目的是刪除反應信息冗餘的評價指標。基於主成分分析的指標篩選的目的是刪除對評價結果影響較小的評價指標。
二是,兩次篩選的作用不同:基於相關性分析的指標篩選的作用是保證蹄選出的評價指標體系簡潔明快。基於主成分分析的指標簡選的目的是篩選出重要的指標。
④ 基於主成分分析的岩性信息提取
1. 主成分分析基本原理
主成分分析法 ( Principal Component Analysis,PCA) 是多變數統計方法中的一種,該概念首先由 Karl Pearson 在1901 年提出,當時只限於非隨機變數的討論,1933 年 Hotelling將該概念推廣到隨機變數。主成分分析法通過將具有一定相關性的多個指標轉化為少數幾個綜合性指標,在確保數據信息丟失最少的前提下對高維變數空間作降維處理,因此是綜合處理上述多變數問題的一種強有力的工具。若需要解決的問題中指標數越多且各指標間相關程度越密切,則主成分分析法降維處理的優越性越能得到充分體現。
在多光譜遙感影像中,各個波段影像之間存在相關性,並包含了冗餘信息,基於主成分分析的基本思想是,將一組線性相關的變數變為一組相互獨立的、相互正交的變數,而新的變數是輸入變數的線性組合。這樣就能消除各個波段影像之間的信息冗餘。這種方法,所得到的結果是能夠改變 P 個波段影像變換到 Y ( Y < P) 個主分量的像素定義,能夠簡化多光譜影像的數據處理過程,但不損失原影像信息。有關主成分分析的詳細基本原理參見第四章第三節 K - L 變換。
2. 基於 TM 影像主成分分析實例
選取研究區內蒙古大青山地區色爾騰山一段 TM 影像的 710 ×470 子區進行試驗研究( 周成虎,2003) 。該區出露的岩石主要為: 桑乾群 ( Ar1Sg) 片麻岩夾大理岩組、五台群( Ar2Wt) 綠 泥 片 岩 和 絹 雲 石 英 片 岩 夾 含 鐵 石 英 岩; 侏 羅 系的 中、下 統 石 拐 群 ( J1 - 2Sh1 - 2,3) 砂頁岩組和礫岩組; 燕山早期肉紅色中細粒鉀長花崗岩 ( γ25) ,加里東晚期灰綠色細粒黑雲母花崗岩 ( γo33) ( 圖 7-13) 。
TM 數據的軌道號為: PATH-128,ROW = 32,由於 TM 第 6 波段空間解析度較低,因而未利用,只對其餘六個波段進行了主成分分析和對應分析處理。
對所選影像進行主成分分析,特徵向量矩陣見表 7-3。
分析表 7-3,可得出如下幾點結論:
( 1) 在 PC1 主成分上,六個波段均為正值,其中第 5 波段貢獻最大,其次是波段 7,4 和 3。總體說來,PC1 主成分反映的是影像六個波段的加信息,反映在 PC1 影像,主要表現的是亮度信息和地形信息。
( 2) PC2 主成分是波段 4,5,7 的和減去波段 1,2,3 的和的線性變換,其中第 1 波段與 PC2 呈明顯的負相關。
( 3) PC3 主成分是波段 1,5,7 的和減去波段 2,3,4 的和的線性組合,其中除波段1 之外,其餘波段對 PC2 主成分的貢獻基本相同。
( 4) PC4 主成分主要反映的是波段 5 的減信息和波段 7 的加信息。
( 5) 波段 2 和波段 4 對 PC5 主成分的貢獻最大,其中波段 2 為加信息,波段 4 為減信息,PC5 是它們的體現。
圖 7-13 色爾騰山礦產地質示意圖( 據內蒙古地區礦產局 1∶20 萬佘太鎮礦產圖)
表 7-3 主成分分析的特徵向量矩陣
( 6) PC6 是波段 2 和波段 4 的加信息與波段 3 的減信息的線性組合。
圖 7-14 是上述六個特徵向量 ( 主成分) 反變換後的影像。
從圖 7-14 的六個主成分影像看,主成分 5,4,3 ( PC5,PC4,PC3) 較好地反映了該區的岩性信息。另外,各種岩石在這三個主成分影像上的反差也大,故選取 PC5,PC4,PC3 作假彩色 RGB 合成,結果很好地進行了該區岩性的提取和區分。將結果與地質示意圖相對照,基本吻合。與原始影像 1,4,7 波段的假彩色合成影像相比,岩性信息更加突出 ( 圖版 11) 。
圖 7-14 研究區 TM 影像的六個主成分影像( 據周成虎等,2003)
⑤ 請教SPSS高人,主成份分析和因子分析有什麼不同做主成分分析目的是什麼謝謝
主成分分析和因子分析都是信息濃縮的方法,即將多個分析項信息濃縮成幾個概括性指標。如果希望進行將指標命名,SPSSAU建議使用因子分析。原因在於因子分析在主成分基礎上,多出一項旋轉功能,該旋轉目的即在於命名。
主成分分析目的在於信息濃縮(但不太關注主成分與分析項對應關系),權重計算,以及綜合得分計算。
同時SPSSAU可直接保存因子得分及綜合得分,不需要手動計算。
⑥ 如何進行基於主成分的logistic分析
先做主成分分析,在對主成分做logit回歸
主成分分析
1輸入數據。
2點Analyze 下拉菜單,選Data Rection 下的Factor 。
3打開Factor Analysis後,將數據變數逐個選中進入Variables 對話框中。
4單擊主對話框中的Descriptive按扭,打開Factor Analysis: Descriptives子對話框,在Statistics欄中選擇Univariate Descriptives項要求輸出個變數的均值與標准差,在Correlation Matrix 欄內選擇Coefficients項,要求計算相關系數矩陣,單擊Continue按鈕返回Factor Analysis主對話框。
5單擊主對話框中的Extraction 按鈕,打開如下圖所示的Factor Analysis: Extraction 子對話框。在Method列表中選擇默認因子抽取方法——Principal Components,在Analyze 欄中選擇默認的Correlation Matrix 項要求從相關系數矩陣出發求解主成分,在Exact 欄中選擇Number of Factors;6, 要求顯示所有主成分的得分和所能解釋的方差。單擊Continue按鈕返回Factor Analysis主對話框。
6單擊主對話框中的OK 按鈕,輸出結果。
統計專業研究生工作室原創,請勿復雜粘貼
二元logit回歸
1.打開數據,依次點擊:analyse--regression--binarylogistic,打開二分回歸對話框。
2.將因變數和自變數放入格子的列表裡,上面的是因變數,下面的是自變數(單變數拉入一個,多因素拉入多個)。
3.設置回歸方法,這里選擇最簡單的方法:enter,它指的是將所有的變數一次納入到方程。其他方法都是逐步進入的方法。
4.等級資料,連續資料不需要設置虛擬變數。多分類變數需要設置虛擬變數。
虛擬變數ABCD四類,以a為參考,那麼解釋就是b相對於a有無影響,c相對於a有無影響,d相對於a有無影響。
5.選項裡面至少選擇95%CI。
點擊ok。
統計專業研究生工作室原創,請勿復雜粘貼