knn聚类分析算法股票_K近邻聚类算法

① KNN算法，k近邻

K最近邻(k-Nearest Neighbour，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

② knn算法的训练数据集需要多大

这个不一定。之所以要分训练集和测试集是因为怕过度拟合（overfitting），所以需要一个测试集来检验确定你建立的模型并不只是适合于这一组数据。我一般都是70%训练集30%测试集。当然，得看数据量有多大，以及复杂程度。只要训练集>=测试集，就不会错，但好不好得具体分析。如果数据量在1000以下的话，最好是k折交叉验证（基本上只要不是特别复杂的数据，都推荐k折交叉验证）。如果要是数据量大于10万的话，最好考虑80：20甚至90:10。

③ knn算法如何选择一个最佳k值

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。
KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成正比。该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻居权值大）来改进。
该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

④ 什么是knn算法

作为一种非参数的分类算法，K-近邻（KNN）算法是非常有效和容易实现的。它已经广泛应用于分类、回归和模式识别等。在应用KNN算法解决问题的时候，要注意两个方面的问题——样本权重和特征权重。利用SVM来确定特征的权重，提出了基于SVM的特征加权算法（FWKNN,feature weighted KNN）。实验表明，在一定的条件下，FWKNN能够极大地提高分类准确率。

⑤ KNN算法小例子看不懂

你的理解是对的，也就是说，第一张图错误，第二张图正确。

⑥ 推荐算法和KNN算法的关系

knn算法是推荐算法的一种
整体思想比较简单：计算一个点A与其他所有点之间的距离，取出与该点最近的k个点，然后统计这k个点里面所属分类比例最大的，则点A属于该分类。

⑦ k-means算法和knn算法的区别

K均值聚类算法即是HCM（普通硬-C均值聚类算法），它是一种硬性划分的方法，结果要么是1要么是0，没有其他情况，具有“非此即彼”的性质。里面的隶属度矩阵是U。 FCM是把HCM算法推广到模糊情形，用在模糊性的分类问题上，给了隶属度一个权重。

⑧ k-means和knn算法的区别

K-means方法是一种非监督学习的算法，它解决的是聚类问题。

KNN则是监督学习，是解决分类问题，具体异同如下图：

⑨ K近邻聚类算法

推荐本书吧
Wiley - Pattern Classification, 2Ed.pdf
有中文版的但是不好找上面很详细还包括其他算法

⑩ 请简述为什么kNN算法是懒惰的

kNN算法，对于分类的不同属性定义距离。对于一个新的待分类样本点，只取k个与该样本距离最近的点，然后找这k个点所归属的最多的类做为新样本点的分类。由于只取k个点，不需要全部样本点来做分类，所以说这个算法懒惰。

knn聚类分析算法股票

与knn聚类分析算法股票相关的内容