在做聚类分析的时候,有两种主要的方法:一种是K-means,一种是Hierarchical。先来说说K-means,它的逻辑很简单,把距离小的对象归为一类,距离大的就是另外一类。这是聚类分析最基本的规则。这个方法比较快,适合数据量不大的时候使用。操作路径通常是先做分析,然后选择分类,接着再选择K均值聚类。不过,在使用这个方法之前,你得先知道你要分成几类。你可以人为指定初始的质心,或者让算法自己去找。这个方法只适用于连续变量。如果你聚的是一些语义变量,比如品牌偏好或者产品功能,最好不要标准化。因为标准化可能会让“距离”失真。 再来说说Hierarchical聚类。这个方法就像做因子分析一样步步为营。Hierarchical Cluster会记录每一步合并的过程,最后生成一个树形图(Dendrogram)。这个树形图能显示出谁先和谁抱团,也能让你回溯为什么最后分道扬镳。这个方法有很多亮点:比如结果一旦确定就不能反悔,既可对个案也可对变量动手。还有就是它能测量多种距离方法,包括连续和分类变量通吃。可视化效果也非常好。操作路径通常是先分析再分类然后选择系统聚类接着选择方法。可以选择Pearson相关性来进行变量聚类,或者平方Euclidean距离来进行个案聚类。注意树形图的横轴是“距离”,纵轴是“样本/变量序号”。剪枝点的选择直接决定最终分组结果,常用方法有肘方法、Gap Statistic和轮廓系数。 除了K-means和Hierarchical还有一种叫做Two Step Cluster的方法。它被称为自动寻优的“黑箱”高手。Two Step Cluster有三个假设:变量之间彼此独立、分类变量服从多项分布、连续变量服从正态分布。只要满足这些假设,Two Step Cluster就能在大数据集上快速给出最佳分类数与稳定分组。它的过程是先对个案进行粗聚,再在每个子群内用混合模型估计参数,最后用Bayesian信息准则自动停机——全程不需要人工干预类别数。 接下来我们看一下这三种方法分别适用于什么样的场景: 第一个场景是设计抽样方案:分层抽样更精准。你可以先把数据聚成几个群然后从每群中按比例抽取样本这样既省时又省力还能保证群内差异小群间差异大。 第二个场景是预分析“瘦身”:让大数据先减负面对上千条记录先聚成几十个“超级个体”后续多元回归神经网络才能跑得动。 第三个场景是市场细分:先圈群再挖差异聚类完成后用判别分析文本挖掘继续深挖各群的核心痛点购买路径与营销触点为定制化策略提供依据。 总之聚类分析是一种很有用的工具可以帮助我们发现数据内部的天然分组无论是对消费者行为员工绩效还是产品特征地域文化都可以用这个方法来进行分析只要掌握了核心思路用相似系数或距离度量把“味道”相近的点拢成一群就能轻松搞定啦!