专业的短链接生成工具
链接域名
短网址有效期
如何用聚类模型(k-means)做数据分析?
更新时间:2025-6-4 13:49:24 作者:爱短链
在本文中,作者介绍了聚类模型,看看如何使用聚类模型(k-means)做数据分析。
在日常工作中,数据分析的方法经常被使用。
聚类模型看起来很简单,但实际上非常重要;作者分享了如何使用聚类模型进行数据分析。
让我们一起学习。
k-means无监督学习算法的内涵是观察无标签数据集,自动发现隐藏结构和层次,在无标签数据中寻找隐藏规律。
聚类模型在数据分析中的应用:它不仅可以作为一个单独的过程,也可以作为其他分析任务的前置探索,如分类。
比如我们想探索一下我们产品站有哪些社交行为群体,一开始拍脑门可能不容易。
此时,用户可以根据用户属性和行为进行聚类,每个群体可以根据结果定义为一种社会群体。
基于这些类别培训的后续分类模型,可以在标记后进行个性化的推荐和操作。
一、k-means算法与距离 K-means聚类的目标是按照一定的标准将n个观测数据点划分为k个聚类,数据点根据相似性进行划分。
每个聚类都有一个纹理,这是一个平均值得到聚类中所有点的位置,每个观测点都属于最近的纹理所代表的聚类。
模型最终会选择n个观测点到其聚类质心距离平方和(损失函数)最小的聚类方式作为模型输出,K-means在聚类分析中,特征变量需要数值变量来计算距离。
我们用距离来测量两个样本的相似性。
距离的本质是将两个具有多维特征数据的样本的比较映射成一个数字,可以通过这个数字的大小来衡量距离。
几种常见的距离计算方法: 欧几里的距离-直线距离,不适合高维数据,对某一维度的大值差更敏感; 曼哈顿距离——也被称为出租车距离,用标准坐标系上两点的绝对轴距总和,只计算水平或垂直距离,对某一维度的大值差不敏感; Hamming距离-可用于测量含有分类值的向量之间的距离; 余弦距离——通过计算两个向量的夹角余弦值来评估相似度,适用于结果与数据中特征的比值无关的案例。
k-means本质是每次将质心移动到群中的所有点means在距离的基础上,它不是基于距离,而是基于最小化方差和。
方差正好是欧几里得的距离平方。
如果使用其他距离,但仍然最小化方差和,整个算法将无法收敛,因此k-means使用欧几里得的方法。
二、k-means算法原理 第一步:数据归一化、离群处理后,随机选择k个聚类质心,k下一节的详细选择;第二步:将所有数据点关联划分为最接近自己的纹理,并在此基础上划分聚类;第三步:将纹理移动到包含所有数据点的当前分类聚类的中心(means); 重复第二步和第三步n次,直到所有点到其聚类质地的距离平方和最小。
多次随机:选择几种类型,然后开始根据不同的随机初始质地(第一步)尝试随机选择几种聚类质地: 尝试1:第一步→第二步→第三步 … (重复2、3步~10次)→聚类方式1 尝试2:第一步→第二步→第三步 … (重复2、3步~10次)→聚类方式2 … 在所有的试验结果中,选择所有距离平方和(方差和)最小的聚类方法。
三、k值选择方法 K值的选择是k-means算法的重要一步,K价值选择方法包括肘部法则、头部拍摄法、gap statistic本文主要介绍肘部法则和轮廓系数gap statistic两种常用方法。
1. 肘部法则 我们可以尝试不同的K值,将不同K值对应的损失函数画成折线,横轴为K值,纵轴为距离平方和定义的损失函数,距离平方和随K的增加而减小。
当K=5时,有一个拐点,就像人的肘部一样,当k