對股票進行聚類分析_股票概念的聚類用什麼模型

1. 如何進行聚類分析

1. 數據預處理，
2. 為衡量數據點間的相似度定義一個距離函數，
3. 聚類或分組，
4. 評估輸出。

數據預處理包括選擇數量，類型和特徵的標度，它依靠特徵選擇和特徵抽取，特徵選擇選擇重要的特徵，特徵抽取把輸入的特徵轉化為一個新的顯著特徵，它們經常被用來獲取一個合適的特徵集來為避免「維數災」進行聚類，數據預處理還包括將孤立點移出數據，孤立點是不依附於一般數據行為或模型的數據，因此孤立點經常會導致有偏差的聚類結果，因此為了得到正確的聚類，我們必須將它們剔除。

既然相類似性是定義一個類的基礎，那麼不同數據之間在同一個特徵空間相似度的衡量對於聚類步驟是很重要的，由於特徵類型和特徵標度的多樣性，距離度量必須謹慎，它經常依賴於應用，例如，通常通過定義在特徵空間的距離度量來評估不同對象的相異性，很多距離度都應用在一些不同的領域，一個簡單的距離度量，如Euclidean距離，經常被用作反映不同數據間的相異性，一些有關相似性的度量，例如PMC和SMC，能夠被用來特徵化不同數據的概念相似性，在圖像聚類上，子圖圖像的誤差更正能夠被用來衡量兩個圖形的相似性。

將數據對象分到不同的類中是一個很重要的步驟，數據基於不同的方法被分到不同的類中，劃分方法和層次方法是聚類分析的兩個主要方法，劃分方法一般從初始劃分和最優化一個聚類標准開始。Crisp Clustering，它的每一個數據都屬於單獨的類；Fuzzy Clustering，它的每個數據可能在任何一個類中，Crisp Clustering和Fuzzy Clusterin是劃分方法的兩個主要技術，劃分方法聚類是基於某個標准產生一個嵌套的劃分系列，它可以度量不同類之間的相似性或一個類的可分離性用來合並和分裂類，其他的聚類方法還包括基於密度的聚類，基於模型的聚類，基於網格的聚類。

評估聚類結果的質量是另一個重要的階段，聚類是一個無管理的程序，也沒有客觀的標准來評價聚類結果，它是通過一個類有效索引來評價，一般來說，幾何性質，包括類間的分離和類內部的耦合，一般都用來評價聚類結果的質量，類有效索引在決定類的數目時經常扮演了一個重要角色，類有效索引的最佳值被期望從真實的類數目中獲取，一個通常的決定類數目的方法是選擇一個特定的類有效索引的最佳值，這個索引能否真實的得出類的數目是判斷該索引是否有效的標准，很多已經存在的標准對於相互分離的類數據集合都能得出很好的結果，但是對於復雜的數據集，卻通常行不通，例如，對於交疊類的集合。

2. 股票概念的聚類用什麼模型

所有股票分析軟體都有這個功能，輸入想看概念板塊，如煤炭輸入MT小寫就可以看到了

3. 聚類分析如何做

顧名思義，把相關類別的關系聚集在一起然後看共性進行分析

4. 如何對大量數據進行聚類分析

用SPSS，裡面就有聚類分析，你只要定義好規則就好了

5. 如何用MATLAB對股票數據做聚類分析

直接調kmeans函數。
k = 3;%類別數
idx = kmeans(X, k);%idx就是每個樣本點的標號。

6. 如何運用聚類分析法

聚類分析法是理想的多變數統計技術，主要有分層聚類法和迭代聚類法。聚類通過把目標數據放入少數相對同源的組或「類」（cluster）里。分析表達數據，（1）通過一系列的檢測將待測的一組基因的變異標准化，然後成對比較線性協方差。（2）通過把用最緊密關聯的譜來放基因進行樣本聚類，例如用簡單的層級聚類（hierarchical clustering）方法。這種聚類亦可擴展到每個實驗樣本，利用一組基因總的線性相關進行聚類。（3）多維等級分析（multidimensional scaling analysis,MDS）是一種在二維Euclidean 「距離」中顯示實驗樣本相關的大約程度。（4）K-means方法聚類，通過重復再分配類成員來使「類」內分散度最小化的方法。

聚類方法有兩個顯著的局限：首先，要聚類結果要明確就需分離度很好（well-separated）的數據。幾乎所有現存的演算法都是從互相區別的不重疊的類數據中產生同樣的聚類。但是，如果類是擴散且互相滲透，那麼每種演算法的的結果將有點不同。結果，每種演算法界定的邊界不清，每種聚類演算法得到各自的最適結果，每個數據部分將產生單一的信息。為解釋因不同演算法使同樣數據產生不同結果，必須注意判斷不同的方式。對遺傳學家來說，正確解釋來自任一演算法的聚類內容的實際結果是困難的（特別是邊界）。最終，將需要經驗可信度通過序列比較來指導聚類解釋。

第二個局限由線性相關產生。上述的所有聚類方法分析的僅是簡單的一對一的關系。因為只是成對的線性比較，大大減少發現表達類型關系的計算量，但忽視了生物系統多因素和非線性的特點。

從統計學的觀點看，聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中，如SPSS、SAS等。
從機器學習的角度講，簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同，無監督學習不依賴預先定義的類或帶類標記的訓練實例，需要由聚類學習演算法自動確定標記，而分類學習的實例或數據對象有類別標記。聚類是觀察式學習，而不是示例式的學習。
從實際應用的角度看，聚類分析是數據挖掘的主要任務之一。就數據挖掘功能而言，聚類能夠作為一個獨立的工具獲得數據的分布狀況，觀察每一簇數據的特徵，集中對特定的聚簇集合作進一步地分析。
聚類分析還可以作為其他數據挖掘任務（如分類、關聯規則）的預處理步驟。
數據挖掘領域主要研究面向大型資料庫、數據倉庫的高效實用的聚類分析演算法。

聚類分析是數據挖掘中的一個很活躍的研究領域，並提出了許多聚類演算法。
這些演算法可以被分為劃分方法、層次方法、基於密度方法、基於網格方法和
基於模型方法。
1 劃分方法(PAM:PArtitioning method) 首先創建k個劃分，k為要創建的劃分個數；然後利用一個循環
定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括：
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
2 層次方法(hierarchical method) 創建一個層次以分解給定的數據集。該方法可以分為自上
而下（分解）和自下而上（合並）兩種操作方式。為彌補分解與合並的不足，層次合
並經常要與其它聚類方法相結合，如循環定位。典型的這類方法包括：
第一個是;BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法，它首先利用樹的結構對對象集進行劃分；然後再利
用其它聚類方法對這些聚類進行優化。
第二個是CURE(Clustering Using REprisentatives) 方法，它利用固定數目代表對象來表示相應聚類；然後對各聚類按照指定
量（向聚類中心）進行收縮。
第三個是ROCK方法，它利用聚類間的連接進行聚類合並。
最後一個CHEMALOEN，它則是在層次聚類時構造動態模型。
3 基於密度方法，根據密度完成對象的聚類。它根據對象周圍的密度（如
DBSCAN）不斷增長聚類。典型的基於密度方法包括：
DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法通過不斷生長足夠高密
度區域來進行聚類；它能從含有雜訊的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義
為一組「密度連接」的點集。
OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一
個聚類，而是為自動交互的聚類分析計算出一個增強聚類順序。。
4 基於網格方法，首先將對象空間劃分為有限個單元以構成網格結構；然後利
用網格結構完成聚類。
STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基
於網格聚類的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方
法。
5 基於模型方法，它假設每個聚類的模型並發現適合相應模型的數據。典型的
基於模型方法包括：
統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采
用符號量（屬性-值）對來加以描述的。採用分類樹的形式來創建
一個層次聚類。
CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚
類。它為每個結點中的每個屬性保存相應的連續正態分布（均值與方差）；並利
用一個改進的分類能力描述方法，即不象COBWEB那樣計算離散屬性（取值）
和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。
因此它們都不適合對大資料庫進行聚類處理.

7. 聚類分析在股票板塊中的應用急需此題論文！！

請先看看下面這教程，看能否找到你要的答案，不明再問我。。
www.fjmu.e.cn

對股票進行聚類分析

與對股票進行聚類分析相關的內容