快速聚类(Quick Clustering)——SPSS软件实现

发布于 2023年5月19日 星期五 23:36:56 浏览:4098
原创不易,转载请注明来源,感谢!
附件下载:
1684510695-快速聚类.zip 请勿重复点击,如无响应请耐心等待或稍后再试。

快速聚类,又称“K-均值(K-means)聚类”,是动态样品聚类方法中常用的一种,适用于样品聚类,指标须为连续性的计量资料,须指定聚类的数目。本文实例演示在SPSS软件中实现快速聚类的分析步骤。

关键词:SPSS; 聚类分析; 快速聚类; K-均值聚类; 系统聚类; 两步聚类

快速聚类属于非层次聚类方法,其基本思想是对n个数值变量进行快速聚类,则n个变量组成n维的空间,每个样品(Case)是空间中的一个点,最终按照事先要求聚类成K个类别。快速聚类计算速度较快,特别适合大样本研究。

一、案例介绍

某研究调查了2890名居民的家庭月开支情况,包括教育(Education)、旅游(Travel)、购物(Shopping)、购衣(Clothes)、饮食(Eat)和其他(Other),部分数据见图1。如果将研究对象分为4个群体,试对数据进行聚类分析。本案例数据可从“附件下载”处下载。

图1

二、问题分析

该研究的主要目的是对居民的消费支出进行聚类分析,属于样品聚类,且该案例指标均为连续性的计量资料,因此系统聚类和快速聚类分析方法均可行,此处演示快速聚类分析方法。

三、软件操作及结果解读

(一) 统计学描述

1. 软件操作

先对数据进行统计学描述,了解其大致情况。点击“分析”—“描述统计”—“描述”,将6个变量选入右侧“变量”框,点击“确定”(图2)。

图2

2. 结果解读

图3

“描述统计”结果(图3)显示,虽然教育(Education)、旅游(Travel)、购物(Shopping)、购衣(Clothes)、饮食(Eat)和其他(Other)的量纲相同,均可以用来反映居民的开支情况,但数据值存在较大差异。标准差从最小值387.945到最大值5152.987,分布差异较大。数据分布的严重差异将会对聚类带来一定影响,因此,需要考虑对数据进行标准化处理。在SPSS中,快速聚类法不会自动对数据进行标准化,此步骤需要手工完成。

(二)数据标准化

1. 软件操作

在“描述”对话框中,可勾选“将标准化值另存为变量(Z)”(图2),即可完成变量的标准化。然后在数据视图页面将会生成6个新变量,分别为每个变量的标化变量。

图4

(三)快速聚类分析

1. 软件操作

选择“分析”—“分类”—“K-均值聚类”(图5),弹出K-均值聚类分析对话框(图6)。

图5

在“K-均值聚类分析”对话框(图6)中按以下参数设置相应选项:

1) 将ZEducation、ZTravel、ZShopping、ZClothes、ZEat和ZOther等6个标化的变量放入变量框中,变量“ID”选入“个案标注依据”,聚类数根据研究目的设定为4类(聚类数必须是整数,不能小于2,不能大于观察例数),其他保持默认状态(图6)。

图6

2) 聚类方法:“迭代与分类”表示在初始类中心的基础上,不断迭代更换类中心,把观察单位分配至最近的类别中心中,为系统默认方法。“仅分类”表示只使用初始类中心对观察单位进行分类,聚类过程中不更换类中心。

3) 聚类中心:“读取初始聚类中心”表示使用制定数据文件中的观察值为初始中心。“写入最终聚类中心”表示将聚类结果的各类中心数据存于制定文件。本案例不涉及该部分的操作。

4) 迭代:系统默认最大迭代次数为10,本例由于样本量较大,所以可将最大次数放大,本例填为100。收敛标准设置参数位于0~1之间,系统默认值为0。未达到收敛,可设略大于0的值,如0.02,即类中心聚类变化的最大值小于初始类中心距离的2%时,迭代停止,本例保持默认状态选择(图7)。“使用运行均值”表示迭代过程中每确定一个样品的分类后随即进行计算新的类中心。若不选此项,则只在每次迭代结束后当所有的样品聚类完成后,再计算新的类中心,开始下一次迭代,这样会节省运算时间。

图7

5) 保存:勾选“聚类成员”和“与聚类中心的距离”(图8)。选择“聚类成员”将生成一个新变量,表示每一观察单位的所属类别,系统默认变量名为“QCL_n”,n为产生新变量的序号。选择“与聚类中心的距离”将生成一个新变量,表示每一观察单位与类中心的距离。

图8

6) 选项:统计量处勾选上“初始聚类中心”、“ANOVA表(A)”和“每个个案的聚类信息(C)”(图9)。点击“确定”。

图9

2. 结果解读

初始聚类中心结果(图10)列出了每一类别初始定义的聚类中心,由SPSS自动生成,其选择的原则是使得各初始聚类中心的散点在由所有变量构成的空间中尽可能远,而且能尽量广地分布在空间中。此处需要注意的是,若由SPSS自动生成聚类中心,那么这些中心会与案例的排列顺序有关,因此要尽量避免案例出现有规律的排列,必要时可以先使用随机数来打乱顺序。

图10

迭代历史记录(图11)可看出每一迭代过程中类别聚类中心的变化,结果显示聚类中心变化越来越小,直到最终趋近于零,整个迭代过程在第28步终止。

图11

最终聚类中心(图12)是各变量在各类别上的平均值,可以用于描述各类别的特征,但没有使用原始变量描述清晰。此时可使用数据集中自动生成的变量“QCL-1”(即各个案例被归入的类别)对标准化前的原始变量进行统计描述(表1),以更清楚地描述各类别的特征。由表1可见,在聚类1中,教育、旅游、购物等6方面的家庭开支均较低,这类用户可称为“低水平消费者群体”;在聚类2中,明显特点是居民在其他支出的比例远远高于其他类别用户,同时在教育和饮食方面的开支比例较高,这类用户可称为“中上等水平消费群体”;在聚类3中,居民在购衣开支是各类用户中最多,在饮食、教育、旅游、购物等方面开支比例居中,这类用户称为“中等水平消费群体”;在聚类4中,居民在教育、旅游、购物和饮食等方面的开支均是各类用户中最高的,这类用户称为“高水平消费群体”。

图12
表1

使用ANOVA对6种家庭月开支情况均进行了统计学分析。结果(图13)显示,6种家庭月开支情况在4个聚类间的差异均具有统计学意义(各P值均< 0.05),表明6种家庭月开支情况对聚类结果均发挥作用。若某个开支情况的P>0.05,说明其对聚类结果无影响,删除也并不影响聚类结果。

图13

每个聚类中的案例数(图14)表明人数最多的是聚类1,而人数最少的是聚类2,各类人数的多少有时可为最终类别的确定起到辅助作用。

图14

四、结论

该案例为K-均值聚类(快速聚类)分析,通过6个方面(教育、旅游、购物、购衣、饮食和其他)对2890名居民家庭月消费进行分类,最终聚类形成4类,其中第1类“低水平消费群体”居民最多,占总人数45.1%,第2类“中上等消费群体”的居民最少,占总人数2.5%,第3类“中等消费群体”居民719人,占总人数24.9%,第4类“高水平消费群体”居民796人,占总人数89.4%。

五、分析小技巧

快速聚类只适用于样品聚类,如果需要使用快速聚类进行变量聚类,可以对数据集进行横列转置,然后再进行快速聚类。

End
文章目录 沉浸式阅读