當前位置:首頁 » 分析預測 » 因子分析和聚類分析在股票
擴展閱讀
黨員買股票嚴禁借 2025-10-20 08:33:15
股票行情導入WPS 2025-10-20 08:25:34
中國糧油控股股票行情 2025-10-20 08:00:35

因子分析和聚類分析在股票

發布時間: 2022-06-20 09:41:31

A. 幫我舉例幾個有關統計學的生活例子好,謝謝!

  • 你好,哥是統計學大四的學生,幫你解決下問題,

  • 企業做數據報表,可以用統計學中的多元統計分析找出每期報表的聯系,趨勢和走向。

  • 證劵中股票投資可以用統計學中因子分析和聚類分析,找出證劵報表中的關鍵項,有利於決策。

  • 對現實生活中可能發生又沒發生的事情,可以用統計學找出接受假設(即發生)的區間概率。

    純手打,望採納!!

B. 因子分析和聚類分析的區別和聯系

因子分析和聚類分析,很多時候容易混淆。接下來講講二者的區別和聯系

  • 因子分析:比如有20個題,將20個題濃縮成5個關鍵詞;

  • 聚類分析:常見為樣本聚類,比如有500個人,這500個人可以聚成幾個類別。

因子分析和聚類分析的聯系在於:

  • 分析角度上,比如:可先講20個題做因子分析,並且得到因子得分。將因子得分在進一步進行聚類分析。最終聚類得到幾個類別群體。再去對比幾個類別群體的差異等。

C. 如何運用大數據

1.可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
2. 數據挖掘演算法

大數據分析的理論核心就是數據挖掘演算法,各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統

學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據,如
果一個演算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3. 預測性分析
大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的數據,從而預測未來的數據。
4. 語義引擎
非結構化數據的多元化給數據分析帶來新的挑戰,我們需要一套工具系統的去分析,提煉數據。語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。
5.數據質量和數據管理。 大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面,當然更加深入大數據分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。

大數據的技術
數據採集: ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取: 關系資料庫、NOSQL、SQL等。
基礎架構: 雲存儲、分布式文件存儲等。

據處理: 自然語言處理(NLP,Natural Language
Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機」理解」自然語言,所以自然語言處理又叫做自然語言理
解也稱為計算語言學。一方面它是語言信息處理的一個分支,另一方面它是人工智慧的核心課題之一。
統計分析:
假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、 方差分析 、
卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、
因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。

據挖掘: 分類
(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity
grouping or association rules)、聚類(Clustering)、描述和可視化、Description and
Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測 :預測模型、機器學習、建模模擬。
結果呈現: 雲計算、標簽雲、關系圖等。

大數據的處理
1. 大數據處理之一:採集

數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的
數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除
此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時
有可能會有成千上萬的用戶
來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間
進行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二:導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些
海量數據進行有效的分析,還是應該將這
些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使
用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
3. 大數據處理之三:統計/分析

計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通
的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於
MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
4. 大數據處理之四:挖掘

前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數
據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於

統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並
且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。

整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。

D. 聚類分析和因子分析的區別

聚類分析是無監督分類,就是只有自變數(指標)數據,沒有(表示類別的)因變數數據,就可以根據指標數據的距離或相似性進行歸類,而且歸為多少類也是不確定的,取決於數據本身和分類效果的度量指標。常見的聚類分析演算法有層次聚類,K均值聚類,高斯混合聚類,還有基於密度的DBSCAN聚類。

判別分析是有監督分類,就是既有自變數(指標)數據,又有(表示類別的)因變數數據,根據已知類別的樣本所提供的信息,總結出分類的規律性,並建立好判別公式和判別准則,這樣有了新樣本,就能據此判斷其所屬類別。除了通常的距離判別(相當於KNN),貝葉斯判別(樸素貝葉斯),Fisher判別,其它機器學習中的分類演算法,比如決策樹,支持向量機,神經網路等也都是判別分析演算法。

E. 如何在因子分析的基礎上做聚類分析主要是在因子分析所得的那些數據上再做聚類分析

T = clusterdata(x,'maxclust',3)

F. 怎樣用因子分析結果做聚類分析

可以保存因子得分,然後做聚類分析。這個在spssau里就能實現。

分析之前勾選『因子得分』即可。

G. 主成分分析,聚類分析,因子分析的基本思想以及他們各自的優缺點。

主成分分析就是將多項指標轉化為少數幾項綜合指標,用綜合指標來解釋多變數的方差- 協方差結構。綜合指標即為主成分。所得出的少數幾個主成分,要盡可能多地保留原始變數的信息,且彼此不相關。
因子分析是研究如何以最少的信息丟失,將眾多原始變數濃縮成少數幾個因子變數,以及如何使因子變數具有較強的可解釋性的一種多元統計分析方法。
聚類分析是依據實驗數據本身所具有的定性或定量的特徵來對大量的數據進行分組歸類以了解數據集的內在結構,並且對每一個數據集進行描述的過程。其主要依據是聚到同一個數據集中的樣本應該彼此相似,而屬於不同組的樣本應該足夠不相似。
三種分析方法既有區別也有聯系,本文力圖將三者的異同進行比較,並舉例說明三者在實際應用中的聯系,以期為更好地利用這些高級統計方法為研究所用有所裨益。
二、基本思想的異同
(一) 共同點
主成分分析法和因子分析法都是用少數的幾個變數(因子) 來綜合反映原始變數(因子) 的主要信息,變數雖然較原始變數少,但所包含的信息量卻占原始信息的85 %以上,所以即使用少數的幾個新變數,可信度也很高,也可以有效地解釋問題。並且新的變數彼此間互不相關,消除了多重共線性。這兩種分析法得出的新變數,並不是原始變數篩選後剩餘的變數。在主成分分析中,最終確定的新變數是原始變數的線性組合,如原始變數為x1 ,x2 ,. . . ,x3 ,經過坐標變換,將原有的p個相關變數xi 作線性變換,每個主成分都是由原有p 個變數線性組合得到。在諸多主成分Zi 中,Z1 在方差中占的比重最大,說明它綜合原有變數的能力最強,越往後主成分在方差中的比重也小,綜合原信息的能力越弱。因子分析是要利用少數幾個公共因子去解釋較多個要觀測變數中存在的復雜關系,它不是對原始變數的重新組合,而是對原始變數進行分解,分解為公共因子與特殊因子兩部分。公共因子是由所有變數共同具有的少數幾個因子;特殊因子是每個原始變數獨自具有的因子。對新產生的主成分變數及因子變數計算其得分,就可以將主成分得分或因子得分代替原始變數進行進一步的分析,因為主成分變數及因子變數比原始變數少了許多,所以起到了降維的作用,為我們處理數據降低了難度。
聚類分析的基本思想是: 採用多變數的統計值,定量地確定相互之間的親疏關系,考慮對象多因素的聯系和主導作用,按它們親疏差異程度,歸入不同的分類中一元,使分類更具客觀實際並能反映事物的內在必然聯系。也就是說,聚類分析是把研究對象視作多維空間中的許多點,並合理地分成若干類,因此它是一種根據變數域之間的相似性而逐步歸群成類的方法,它能客觀地反映這些變數或區域之間的內在組合關系[3 ]。聚類分析是通過一個大的對稱矩陣來探索相關關系的一種數學分析方法,是多元統計分析方法,分析的結果為群集。對向量聚類後,我們對數據的處理難度也自然降低,所以從某種意義上說,聚類分析也起到了降維的作用。
(二) 不同之處
主成分分析是研究如何通過少數幾個主成分來解釋多變數的方差一協方差結構的分析方法,也就是求出少數幾個主成分(變數) ,使它們盡可能多地保留原始變數的信息,且彼此不相關。它是一種數學變換方法,即把給定的一組變數通過線性變換,轉換為一組不相關的變數(兩兩相關系數為0 ,或樣本向量彼此相互垂直的隨機變數) ,在這種變換中,保持變數的總方差(方差之和) 不變,同時具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。依次類推。若共有p 個變數,實際應用中一般不是找p 個主成分,而是找出m (m < p) 個主成分就夠了,只要這m 個主成分能反映原來所有變數的絕大部分的方差。主成分分析可以作為因子分析的一種方法出現。
因子分析是尋找潛在的起支配作用的因子模型的方法。因子分析是根據相關性大小把變數分組,使得同組內的變數之間相關性較高,但不同的組的變數相關性較低,每組變數代表一個基本結構,這個基本結構稱為公共因子。對於所研究的問題就可試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。通過因子分析得來的新變數是對每個原始變數進行內部剖析。因子分析不是對原始變數的重新組合,而是對原始變數進行分解,分解為公共因子和特殊因子兩部分。具體地說,就是要找出某個問題中可直接測量的具有一定相關性的諸指標,如何受少數幾個在專業中有意義、又不可直接測量到、且相對獨立的因子支配的規律,從而可用各指標的測定來間接確定各因子的狀態。因子分析只能解釋部分變異,主成分分析能解釋所有變異。
聚類分析演算法是給定m 維空間R 中的n 個向量,把每個向量歸屬到k 個聚類中的某一個,使得每一個向量與其聚類中心的距離最小。聚類可以理解為: 類內的相關性盡量大,類間相關性盡量小。聚類問題作為一種無指導的學習問題,目的在於通過把原來的對象集合分成相似的組或簇,來獲得某種內在的數據規律。
從三類分析的基本思想可以看出,聚類分析中並沒於產生新變數,但是主成分分析和因子分析都產生了新變數。
三、數據標准化的比較
主成分分析中為了消除量綱和數量級,通常需要將原始數據進行標准化,將其轉化為均值為0方差為1 的無量綱數據。而因子分析在這方面要求不是太高,因為在因子分析中可以通過主因子法、加權最小二乘法、不加權最小二乘法、重心法等很多解法來求因子變數,並且因子變數是每一個變數的內部影響變數,它的求解與原始變數是否同量綱關系並不太大,當然在採用主成分法求因子變數時,仍需標准化。不過在實際應用的過程中,為了盡量避免量綱或數量級的影響,建議在使用因子分析前還是要進行數據標准化。在構造因子變數時採用的是主成分分析方法,主要將指標值先進行標准化處理得到協方差矩陣,即相關矩陣和對應的特徵值與特徵向量,然後構造綜合評價函數進行評價。
聚類分析中如果參與聚類的變數的量綱不同會導致錯誤的聚類結果。因此在聚類過程進行之前必須對變數值進行標准化,即消除量綱的影響。不同方法進行標准化,會導致不同的聚類結果要注意變數的分布。如果是正態分布應該採用z 分數法。
四、應用中的優缺點比較
(一) 主成分分析
1、優點
首先它利用降維技術用少數幾個綜合變數來代替原始多個變數,這些綜合變數集中了原始變數的大部分信息。其次它通過計算綜合主成分函數得分,對客觀經濟現象進行科學評價。再次它在應用上側重於信息貢獻影響力綜合評價。
2、缺點
當主成分的因子負荷的符號有正有負時,綜合評價函數意義就不明確。命名清晰性低。
(二) 因子分析
1、優點
第一它不是對原有變數的取捨,而是根據原始變數的信息進行重新組合,找出影響變數的共同因子,化簡數據;第二,它通過旋轉使得因子變數更具有可解釋性,命名清晰性高。
2、缺點
在計算因子得分時,採用的是最小二乘法,此法有時可能會失效。
(三) 聚類分析
1、優點
聚類分析模型的優點就是直觀,結論形式簡明。
2、缺點
在樣本量較大時,要獲得聚類結論有一定困難。由於相似系數是根據被試的反映來建立反映被試間內在聯系的指標,而實踐中有時盡管從被試反映所得出的數據中發現他們之間有緊密的關系,但事物之間卻無任何內在聯系,此時,如果根據距離或相似系數得出聚類分析的結果,顯然是不適當的,但是,聚類分析模型本身卻無法識別這類錯誤。