Scikit Learn - 聚类方法


在这里,我们将研究 Sklearn 中的聚类方法,这将有助于识别数据样本中的任何相似性。

聚类方法是最有用的无监督机器学习方法之一,用于查找数据样本之间的相似性和关系模式。之后,他们根据特征将这些样本聚类成具有相似性的组。聚类决定了当前未标记数据之间的内在分组,这就是它的重要性。

Scikit-learn 库有sklearn.cluster来执行未标记数据的聚类。在此模块下 scikit-leran 有以下聚类方法 -

K均值

该算法计算质心并迭代,直到找到最佳质心。它需要指定簇的数量,这就是为什么它假设它们是已知的。该算法的主要逻辑是通过最小化称为惯性的标准,将数据分离样本聚类为 n 组等方差的数据。算法识别出的簇的数量用“K”表示。

Scikit-learn 有sklearn.cluster.KMeans模块来执行 K-Means 聚类。在计算聚类中心和惯性值时,名为sample_weight的参数允许sklearn.cluster.KMeans模块为某些样本分配更多权重。

亲和力传播

该算法基于不同样本对之间“消息传递”直至收敛的概念。它不需要在运行算法之前指定簇的数量。该算法的时间复杂度为