无监督学习中的聚类算法

由于最近开始搞毕设的东西,毕设也是与机器学习 有关的内容大致是基于亲和力传播的交通道路划分,一个虽然听不懂但是听起来感觉简单的一个题目,因此开始入了聚类算法的坑,查了一些手边的资料整理了一下。

首先要区分开监督学习和无监督学习,例如我之前的机器学习笔记系列的模型啊之类的都是有监督学习,至于无监督学习常见的例如聚类,如何作为二者的区分呢,很明显,监督顾名思义将有答案的数据集扔进去学习,学习是知道了样本的答案可以进行优化学习有答案作为参照起到了一种“监督”的效果,那么无监督学习及为只有样本(特征),没有答案,二者可以抽象为答题中的主观题和客观题,有监督是客观题,无监督是主观题,以上为个人理解如有不妥之处请多多指教,用规范化的语言来说就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。

对具有标签(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。 对没有标签(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。

那么我们就要问了,既然无监督学习歧义性高,为什么还要使用他呢,存在必然是有道理的,在某些情况下我们不得不适用无监督学习,这不代表他不好,只是二者应用场景不同,比如当有监督学习样本获取代价很高的时候,我们很难找出大量带有标签的特征,没有充分的数据集,监督学习未必能取得较好的效果。

什么是聚类:

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。 ——来自百度百科

聚类和分类的区别:

刚开始一直以为聚类和分类是一种东西,也把近邻传播算法和K近邻法搞混了,其实最根本的区别就是监督学习和无监督学习的区别,其次聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的类或者说聚类,并且使得在这种分类情况下,以某种度量(例如:距离)为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化

聚类原理:

1、先随机产生(选取数据集中的地方,收敛会比较快)每个类别的中心点(设定多少类别就产生多少个类的中心点); 2、计算每个样本和中心点之间的距离,离哪个最近,就将它归为哪一类; 3、每一类都会有很多样本,计算这些样本的平均值作为新的中心点; 4、如果新的中心点和旧的中心点的差别不大,则完成聚类,否则重新跳至第二步;

近邻传播算法也是一种聚类算法,而网上描述的内容也非常少,包括我查阅了周志华大佬的西瓜书,也没找到对应的内容,百度百科内容如下:

2007年,Frey和Dueck在《Science》上首次提出了近邻传播算法,能够在较短的时间内处理大规模数据集,得到较理想的结果。该方法是一种基于实例的方法(Instance-based),与经典的k-means算法具有相同的目标函数,但其在算法原理上与k-means算法存在很大的不同。近邻传播算法是一种基于近邻信息传递的聚类算法,该算法以数据集的相似度矩阵作为输入,算法起始阶段将所有的样本看作是潜在的聚类中心点,同时,将每个样本点都视为网络中的一个节点,吸引力信息沿着节点连线递归传输,直到找到最优的类代表点集合(类代表点必须是实际数据集中的点,成exemplar),使得所有数据点到最近的类代表点的相似度之和最大。其中,吸引力信息是数据点适合被选作其他数据的类代表点的程度。

相比较于其他传统的聚类算法,AP算法将每个数据点都作为候选的类代表点,避免了聚类结果受限于初始类代表点的选择,同时该算法对于数据集生成的相似度矩阵的对称性没有要求,并在处理大规模多类数据时运算速度快,所以能够很好地解决非欧空间问题(如不满足对称性或三角不等式)以及大规模稀疏矩阵计算问题等。

相比于k-means和k-中心算法,AP算法的优化过程具有更高的鲁棒性。前两种算法都是采用的贪婪算法来解决组合优化问题,AP算法是一种连续优化的过程,每个样本点都被视为候选类代表点,聚类是逐渐被识别出来的。尤其是,AP算法不受初始点选择的困扰,而且能够保证收敛到全局最优。实际中,AP算法能获得比k-means更稳定的结果。

由于近邻传播算法只需要进行简单的局部计算,因此,与传统聚类算法相比,它能够在更短的CPU运算时间里达到更好的聚类效果。当数据集规模较小时,近邻传播算法与传统算法的差别不大,优势不明显;但是当数据集规模增大时,或者说,聚类算法的特征矩阵变得高维稀疏时,近邻传播算法性能明显优于传统算法。目前该算法已经成功应用于人脸识别,基因发现、网络文本挖掘、图像分割以及最优航线设计等领域。

参考:http://blog.csdn.net/doctor_feng/article/details/18778921

参考:http://blog.csdn.net/lixi__liu/article/details/48470173

参考:http://www.chinaaet.com/article/79936