聚类,分类和推荐

聚类

聚类,即将相似的东西放到一个类别中,聚类之前唯一需要做的就是定义相似度计算方法,因此,聚类是一种无监督的学习过程

华盖聚类(Canopy)

KMeans聚类

Kmeans聚类的Cost函数为:

其中,$$ r_{nk}= \begin{cases} 1 & \text{ if } x_n \in cluster_k \ 0 & \text{ else } \end{cases}u_k$$是第k个类的中心

我们发现代价函数J中有两个变量,而且连个变量之间还有依赖关系,可以将理解成隐含的中间变量,这样就和EM的思想不谋而合

KCentroid聚类

普聚类 Spectral Clustering

普聚类其实就是通过 Laplacian Eigenmap 的降维方式降维之后再做 K-means 的一个过程

具体过程如下:

  1. 根据数据构造一个Graph,Graph的没一个节点对应一个数据点,将相似的点连接起来,并且边的权重用于表示数据之间的相似度。把这个Graph用邻接矩阵的形式表示出来,记为W,一个最偷懒的办法就是:直接用 K-medoids 中用的相似度矩阵作为 W

  2. W 的每一列元素加起来得到 N 个数,把它们放在对角线上(其他地方都是零),组成一个 的矩阵,记为 D 。并令 L = D-W

  3. 求出 L 的前 k 个特征值(在本文中,除非特殊说明,否则“前 k 个”指按照特征值的大小从小到大的顺序) 以及对应的特征向量

  4. 把这 k 个特征(列)向量排列在一起组成一个 的矩阵,将其中每一行看作 k 维空间中的一个向量,并使用 K-means 算法进行聚类。聚类的结果中每一行所属的类别就是原来 Graph 中的节点亦即最初的 N 个数据点分别所属的类别。

参考

分类问题

决策树(DecisionTree)

贝叶斯分类

Boosting

整合多弱分类器形成一个强大的分类器

线性回归

因变量和自变量之前存在线性关系

逻辑回归

支持向量机SVM

推荐系统

基于人口统计学,如年龄,性别,地理位置–用户特征

基于内容的推荐–物品特征

基于协同过滤的推荐–用户项目打分

混合推荐机制

TOP