1.何为聚类

聚类是用于寻找数据内在的分布结构。既可以作为一个单独的过程，如异常检测等；也可作为分类等其他学习任务的前驱过程。聚类是标准的无监督学习。

在一些推荐系统中需要确定新用户的类型，但“用户类型”这个概念可能无法精确定义，此时往往会先对原有的用户数据进行聚类。然后根据聚类的结果将每个簇定义为一个类。然后在基于这些类别取进行相应的分类训练，以判断新用户的类型。

2.何为降维

降维主要是为了缓解维数灾难的一个重要方法。

主要是通过数学变换将原始的高维属性转变到一个低维的子空间。虽然人们平时观测到的数据基本都是高维的，但实际上真正与学习任务的分布相关的往往是低纬度的分布。所以，一般可以通过最主要的几个特征维度就可以实现对数据的描述。如kaggle上的泰坦尼克号生还问题。其主要是通过给定一个人的许多描述特征如年龄、姓名、性别和票价等来判断其是否能在海滩中生还。这就需要先进行特征筛选，从而找出主要的特征，让学校到的模型有更好地泛化性。

3.异同

(1) 聚类和降维都可以作为分类等问题的预处理步骤。

(2) 但他们虽然都可以实现对数据的约减，但二者使用情况不同。聚类针对的是数据点，而降维针对的是数据的特征。

聚类常见的有k-means，层次聚类，基于密度的聚类等；降维中常见的有PCA、Isomap、LLE等。

本文摘自“深度学习500问”。

转载地址：http://auhws.baihongyu.com/

你可能感兴趣的文章