问渠网-机器学习笔记-第一节 K-Mean原理

本文作者：李德强

第一节 K-Mean原理

K-Mean与K值邻近类似，是通过样本与目标点的距离来做分类。但区别是K-Mean是一种典型的非监督学习算法，也就是说我们的数据是没有确定分类的，我们需要通过聚类算法将数据分类。即：将一部分数据聚成一类，将另外一些数据聚成另一类。例如，对于这样的数据分布：

通过我们人类的认知，我们可以对数据这样进行分类：

即：我们将靠在一起的数据分为一组。

K-Mean算法的思想是这样的，我们预计为数据分为两个类A和B，分别用红色和蓝色来表示。我们在样本的特征空间上任选2个点做为这两个分类的“质心”。然后分别计算数据到这两个质心的距离，到哪一个质心的距离最小，则认为此数据属于此分类。然后根据数据的新分类再重新计算2个分类的质心位置，不断重复计算质心的位置，直到质心全部收敛。

正面我们用图形来看一下K-Mean算法的思想：首先在特征空间上任选2个点做为2个分类的质点（0, 20）和（20, 0）：