- Scikit 学习教程
- Scikit Learn - 主页
- Scikit Learn - 简介
- Scikit Learn - 建模过程
- Scikit Learn - 数据表示
- Scikit Learn - 估计器 API
- Scikit Learn - 约定
- Scikit Learn - 线性建模
- Scikit Learn - 扩展线性建模
- 随机梯度下降
- Scikit Learn - 支持向量机
- Scikit Learn - 异常检测
- Scikit Learn - K 最近邻
- Scikit Learn - KNN 学习
- 使用朴素贝叶斯分类
- Scikit Learn - 决策树
- 随机决策树
- Scikit Learn - Boosting 方法
- Scikit Learn - 聚类方法
- 集群性能评估
- 使用 PCA 降维
- Scikit Learn 有用资源
- Scikit Learn - 快速指南
- Scikit Learn - 有用的资源
- Scikit Learn - 讨论
Scikit Learn - 聚类方法
在这里,我们将研究 Sklearn 中的聚类方法,这将有助于识别数据样本中的任何相似性。
聚类方法是最有用的无监督机器学习方法之一,用于查找数据样本之间的相似性和关系模式。之后,他们根据特征将这些样本聚类成具有相似性的组。聚类决定了当前未标记数据之间的内在分组,这就是它的重要性。
Scikit-learn 库有sklearn.cluster来执行未标记数据的聚类。在此模块下 scikit-leran 有以下聚类方法 -
K均值
该算法计算质心并迭代,直到找到最佳质心。它需要指定簇的数量,这就是为什么它假设它们是已知的。该算法的主要逻辑是通过最小化称为惯性的标准,将数据分离样本聚类为 n 组等方差的数据。算法识别出的簇的数量用“K”表示。
Scikit-learn 有sklearn.cluster.KMeans模块来执行 K-Means 聚类。在计算聚类中心和惯性值时,名为sample_weight的参数允许sklearn.cluster.KMeans模块为某些样本分配更多权重。
亲和力传播
该算法基于不同样本对之间“消息传递”直至收敛的概念。它不需要在运行算法之前指定簇的数量。该算法的时间复杂度为