【#第一文档网# 导语】以下是®第一文档网的小编为您整理的《无监督学习》,欢迎阅读!
无监督学习
1 基本概念
监督学习(Supervised Learning)通过发现数据属性和类别属性之间的关联模式,并通过利用这些模式来预测未知数据实例的类别属性。然而,在一些应用中,数据的类
别属性是缺失的,用户希望通过浏览数据来发现其中的某些内在 结构。聚类(Clustering)就是一种发现这种内在结构的技术。聚类把全体数据实例组织称一些相似组,这些相似组被称作聚类(cluster)。聚类技术经常被称作非监督学习(Unsuperised Learning)。
聚类是将一个数据集中在某些方面相似的数据成员进行分类组织的过程。因此,一个聚类就是一些数据实例的集合,这个集合中的元素彼此相似,但是它们都与其它聚类中的元素不同。
常见的两种聚类类型:划分聚类和层次聚类。聚类需要一个相似度函数来度量两个数据点有多相似,或者说一个距离函数度量两个数据点之间的距离。
2 k-均值聚类
2.1 聚类算法
k-均值聚类是最著名的划分聚类算法。给定一个数据点结合和需要的聚类数目k(k由用户指定),k-均值聚类算法根据某个距离函数反复地把数据分入k个聚类中。
设数据点集合D为x1,x2,,xn,并且r表示数据的属性数目(数据空间的维数)。k-均值算法把给定的数据划分成k类。每个聚类中有一个聚类中心(Cluster Centroid)。聚类中心通常用来表示这个聚类,它就是这个聚类中所有数据点的均值,这也是k-均值的由来。算法如图2-1所示。
图2-1 k-均值算法
在算法开始,先从数据集中随机选取k个数据点作为初始的聚类中心,然后计算每个数据点与各个种子数据中心之间的距离,把每个数据点分配给距离它最近的聚类中心。聚类中心以及分配给它的数据点就代表一个聚类。一旦全部数据点都被分配了,每个聚类的聚类中心会根据聚类中现有的数据点被重新计算。这个过程将不断的重复,知道满足下面条件中的任何一个:
1. 没有(或最小数目)数据点被重新分配给不同的聚类; 2. 没有(或最小数目)聚类中心再发生变化; 3. 误差平方和(SSE)局部最小。
k
SSEdist(x,mj)2
j1xCj
其中k表示需要的聚类数目,Cj表示第j个聚类,mj表示聚类Cj的聚类中心,dist(x,mj)表示数据点x和聚类中心mj之间的距离。
在那些均值能被定义和计算的数据集上均能使用k-均值算法。在欧氏空间中,聚类的均值可以如下计算:
mj
1
xi |Cj|xicj
其中|Cj|表示Cj中数据点的个数。数据点xi和聚类均值(中心)mj之间的距离可以被计算如下:
dist(xi,mj)||ximj||(xi1mj1)2(xi2mj2)2(xirmjr)2
图2-2展示了一个聚类的过程。
本文来源:https://www.dy1993.cn/kMtx.html