• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

Python机器学习之Kmeans基础算法

python 搞代码 4年前 (2022-01-08) 44次浏览 已收录 0个评论
文章目录[隐藏]

这篇文章主要介绍了Python机器学习之Kmeans基础算法,文中有非常详细的代码示例,对正在学习python的小伙伴们有非常好的帮助,需要的朋友可以参考下

一、K-means基础算法简介

k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数据集。

二、算法过程

K-means中心思想:事先确定常数K,常数K意味着最终的聚类(或者叫簇)类别数,首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这来源gaodai#ma#com搞@代~码网里为欧式距离),将样本点归到最相似的类中,接着,重新计算每个类的质心(即为类中心),重复这样的过程,直到质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。由于每次都要计算所有的样本与每一个质心之间的相似度,故在大规模的数据集上,K-Means算法的收敛速度比较慢。

1.聚类算法

是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。
聚类算法与分类算法最大的区别是:聚类算法是无监督的学习算法,而分类算法属于监督的学习
算法,分类是知道结果的。
在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。

2.聚类

物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

3.簇

本算法中可以理解为,把数据集聚类成 k 类,即 k 个簇。

4.质心

指各个类别的中心位置,即簇中心。

5.距离公式

常用的有:欧几里得距离(欧氏距离)、曼哈顿距离、闵可夫斯基距离等。

三、文字步骤

1.给定一个待处理的数据集

2.选择簇的个数k(kmeans算法传递超参数的时候,只需设置最大的K值)

3.任意产生k个簇,生成K个簇的中心,记 K 个簇的中心分别为 c 1 , c 2 , . . . , c k c1,c2,…,ck c1,c2,…,ck;每个簇的样本数量为 N 1 , N 2 , . . . , N 3 N1,N2,…,N3 N1,N2,…,N3。

4.通过欧几里得距离公式计算各点到各质心的距离,把每个点划分给与其距离最近的质心,从而初步把数据集分为了 K 类点。

5.更新质心:通过下面的公式来更新每个质心。就是,新的质心的值等于当前该质心所属簇的所有点的平均值。 c j = 1 N j ∑ i = 1 N j x i , y i c_{j}=\frac{1}{N_{j}}\sum_{i=1}^{N{j}}x_{i},y_{i} cj​=Nj​1​i=1∑Nj​xi​,yi​

6.重复以上步骤直到满足收敛要求。(通常就是确定的中心点不再改变。)

四、图形展示

按照上述步骤我们可以更好地理解分类过程;

五、代码实现

 x 轴数据],[存储 y 轴数据]] for i in range(m): if i 

上述代码数据选择是随机生成的,每次运行结果是不同的,测试会发现出现分类不理想的效果。说明基础算法存在很大的弊端,我们需要改进,本篇内容为基础不做改进知识的说明。

  • 几种较好的分类

  • 几种较差的分类

六、小结

优点

算法简单易实现;
聚类效果依赖K值选定,

缺点

需要用户事先指定类簇个数;
聚类结果对初始类簇中心的选取较为敏感;
容易陷入局部最优; 只能发现球形类簇;

以上就是Python机器学习之Kmeans基础算法的详细内容,更多请关注gaodaima搞代码网其它相关文章!


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Python机器学习之Kmeans基础算法

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址