编程 Python

详解K-means算法在Python中的实现

Posted in Python onDecember 05, 2017

K-means算法简介

K-means是机器学习中一个比较常用的算法，属于无监督学习算法，其常被用于数据的聚类，只需为它指定簇的数量即可自动将数据聚合到多类中，相同簇中的数据相似度较高，不同簇中数据相似度较低。

K-MEANS算法是输入聚类个数k，以及包含 n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法。k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。

核心思想

通过迭代寻找k个类簇的一种划分方案，使得用这k个类簇的均值来代表相应各类样本时所得的总体误差最小。

k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

k-means算法的基础是最小误差平方和准则,K-menas的优缺点：

优点：

原理简单
速度快
对大数据集有比较好的伸缩性

缺点：

需要指定聚类数量K
对异常值敏感
对初始值敏感

K-means的聚类过程

其聚类过程类似于梯度下降算法，建立代价函数并通过迭代使得代价函数值越来越小

适当选择c个类的初始中心；
在第k次迭代中，对任意一个样本，求其到c个中心的距离，将该样本归到距离最短的中心所在的类；
利用均值等方法更新该类的中心值；
对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。

详解K-means算法在Python中的实现

该算法的最大优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式。

K-means 实例展示

python中km的一些参数：

sklearn.cluster.KMeans(
  n_clusters=8,
  init='k-means++', 
  n_init=10, 
  max_iter=300, 
  tol=0.0001, 
  precompute_distances='auto', 
  verbose=0, 
  random_state=None, 
  copy_x=True, 
  n_jobs=1, 
  algorithm='auto'
  )
n_clusters: 簇的个数，即你想聚成几类
init: 初始簇中心的获取方法
n_init: 获取初始簇中心的更迭次数，为了弥补初始质心的影响，算法默认会初始10个质心，实现算法，然后返回最好的结果。
max_iter: 最大迭代次数（因为kmeans算法的实现需要迭代）
tol: 容忍度，即kmeans运行准则收敛的条件
precompute_distances:是否需要提前计算距离，这个参数会在空间和时间之间做权衡，如果是True 会把整个距离矩阵都放到内存中，auto 会默认在数据样本大于featurs*samples 的数量大于12e6 的时候False,False 时核心实现的方法是利用Cpython 来实现的
verbose: 冗长模式（不太懂是啥意思，反正一般不去改默认值）
random_state: 随机生成簇中心的状态条件。
copy_x: 对是否修改数据的一个标记，如果True，即复制了就不会修改数据。bool 在scikit-learn 很多接口中都会有这个参数的，就是是否对输入数据继续copy 操作，以便不修改用户的输入数据。这个要理解Python 的内存机制才会比较清楚。
n_jobs: 并行设置
algorithm: kmeans的实现算法，有：'auto', ‘full', ‘elkan', 其中 ‘full'表示用EM方式实现
虽然有很多参数，但是都已经给出了默认值。所以我们一般不需要去传入这些参数,参数的。可以根据实际需要来调用。

下面展示一个代码例子

from sklearn.cluster import KMeans
from sklearn.externals import joblib
from sklearn import cluster
import numpy as np

# 生成10*3的矩阵
data = np.random.rand(10,3)
print data
# 聚类为4类
estimator=KMeans(n_clusters=4)
# fit_predict表示拟合+预测，也可以分开写
res=estimator.fit_predict(data)
# 预测类别标签结果
lable_pred=estimator.labels_
# 各个类别的聚类中心值
centroids=estimator.cluster_centers_
# 聚类中心均值向量的总和
inertia=estimator.inertia_

print lable_pred
print centroids
print inertia

代码执行结果
[0 2 1 0 2 2 0 3 2 0]

[[ 0.3028348  0.25183096 0.62493622]
 [ 0.88481287 0.70891813 0.79463764]
 [ 0.66821961 0.54817207 0.30197415]
 [ 0.11629904 0.85684903 0.7088385 ]]
 
0.570794546829

为了更直观的描述，这次在图上做一个展示，由于图像上绘制二维比较直观，所以数据调整到了二维，选取100个点绘制，聚类类别为3类

from sklearn.cluster import KMeans
from sklearn.externals import joblib
from sklearn import cluster
import numpy as np
import matplotlib.pyplot as plt

data = np.random.rand(100,2)
estimator=KMeans(n_clusters=3)
res=estimator.fit_predict(data)
lable_pred=estimator.labels_
centroids=estimator.cluster_centers_
inertia=estimator.inertia_
#print res
print lable_pred
print centroids
print inertia

for i in range(len(data)):
  if int(lable_pred[i])==0:
    plt.scatter(data[i][0],data[i][1],color='red')
  if int(lable_pred[i])==1:
    plt.scatter(data[i][0],data[i][1],color='black')
  if int(lable_pred[i])==2:
    plt.scatter(data[i][0],data[i][1],color='blue')
plt.show()

详解K-means算法在Python中的实现

可以看到聚类效果还是不错的，对k-means的聚类效率进行了一个测试，将维度扩宽到50维

数据规模	消耗时间	数据维度
10000条	4s	50维
100000条	30s	50维
1000000条	4'13s	50维

对于百万级的数据，拟合时间还是能够接受的，可见效率还是不错，对模型的保存与其它的机器学习算法模型保存类似

from sklearn.externals import joblib
joblib.dump(km,"model/km_model.m")

总结

以上就是本文关于详解K-means算法在Python中的实现的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站：

Python实现调度算法代码详解

Python算法输出1-9数组形成的结果为100的所有运算式

Python编程实现蚁群算法详解

如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

详解K-means算法在Python中的实现

- Author -

Stardustsky

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python语言的面相对象编程方式初步学习

Mar 12 Python

在阿里云服务器上配置CentOS+Nginx+Python+Flask环境

Jun 18 Python

Python 使用requests模块发送GET和POST请求的实现代码

Sep 21 Python

Django的信号机制详解

May 05 Python

Python Flask-web表单使用详解

Nov 18 Python

Python入门必须知道的11个知识点

Mar 21 Python

Tensorflow中使用tfrecord方式读取数据的方法

Jun 19 Python

关于keras中keras.layers.merge的用法说明

May 23 Python

keras 实现轻量级网络ShuffleNet教程

Jun 19 Python

tensorflow 2.1.0 安装与实战教程(CASIA FACE v5)

Jun 30 Python

python编写五子棋游戏

May 25 Python

常用的Python代码调试工具总结

Jun 23 Python

Python实现字符串匹配算法代码示例

Dec 05 #Python

Django实现简单分页功能的方法详解

Dec 05 #Python

Python生成8位随机字符串的方法分析

Dec 05 #Python

在Python程序员面试中被问的最多的10道题

Dec 05 #Python

Python对列表去重的多种方法(四种方法)

Dec 05 #Python

详解Python在七牛云平台的应用（一）

Dec 05 #Python

Python 快速实现CLI 应用程序的脚手架

Dec 05 #Python

You might like

英雄试炼之肉山谷—引领RPG新潮流

2020/04/20 DOTA

thinkphp的URL路由规则与配置实例

2014/11/26 PHP

PHP快速推送微信模板消息

2017/04/14 PHP

浅谈laravel aliases别名的原理

2019/10/24 PHP

网页中实现浏览器的最大，最小化和关闭按钮

2007/03/12 Javascript

Js 获取Gridview选中行的内容操作步骤

2013/02/05 Javascript

jQuery之折叠面板的深入解析

2013/06/19 Javascript

Jquery倒数计时按钮setTimeout的实例代码

2013/07/04 Javascript

刷新页面的几种方法小结(JS,ASP.NET)

2014/01/07 Javascript

如何调试异步加载页面里包含的js文件

2014/10/30 Javascript

Validform+layer实现漂亮的表单验证特效

2016/01/17 Javascript

javascript正则表达式总结

2016/02/29 Javascript

jQuery实现图片局部放大镜效果

2016/03/17 Javascript

关于React动态加载路由处理的相关问题

2019/01/07 Javascript

基于layPage插件实现两种分页方式浅析

2019/07/27 Javascript

微信小程序实现图片压缩

2019/12/03 Javascript

vue在线动态切换主题色方案

2020/03/26 Javascript

Openlayers+EasyUI Tree动态实现图层控制

2020/09/28 Javascript

[01:14:34]DOTA2上海特级锦标赛C组资格赛#2 LGD VS Newbee第一局

2016/02/28 DOTA

[42:20]Winstrike vs VGJ.S 2018国际邀请赛淘汰赛BO3 第二场 8.23

2018/08/24 DOTA

深入学习Python中的装饰器使用

2016/06/20 Python

Python Json序列化与反序列化的示例

2018/01/31 Python

python 使用 requests 模块发送http请求的方法

2018/12/09 Python

Python读取xlsx文件的实现方法

2019/07/04 Python

Pandas分组与排序的实现

2019/07/23 Python

python实现批量修改服务器密码的方法

2019/08/13 Python

django项目中使用手机号登录的实例代码

2019/08/15 Python

Django模型中字段属性choice使用说明

2020/03/30 Python

python subprocess pipe 实时输出日志的操作

2020/12/05 Python

canvas 阴影和图形变换的示例代码

2018/01/02 HTML / CSS

阿姆斯特丹杜莎夫人蜡像馆官方网站：Madame Tussauds Amsterdam

2019/03/12 全球购物

物业管理大学生个人的自我评价

2013/10/10 职场文书

小学语文课后反思精选

2014/04/25 职场文书

院系推荐意见

2015/06/05 职场文书

医院保洁员管理制度

2015/08/05 职场文书

python神经网络学习使用Keras进行回归运算

2022/05/04 Python