读书笔记《集体智慧编程》Chapter 10 : Finding Independent Features

本文概要

本章主要描述了非负矩阵因式分解（Non-Negative Matrix Factorize）在数据挖掘中的作用。举了两个例子：1）文章主题分析（一些关键的词组）；2）股票交易量分析（交易量与重大事件的关系）

贝叶斯分类的局限

贝叶斯分类时，需要训练数据集，这些数据集是人为划分的，并且不会出现新的分类。如果待处理的数据集的潜在分类很多，而且每一个分类需要一定量的样本才会准确，那么训练的工作量会非常大。所以，贝叶斯分类器适合分类比较少，每个分类样本较多的场景。

层级聚类

局限在于不太准确，可能导致一些不同类的样本却在一个聚类中。比如2个相关性并不大的文章A,B，但是由于必须要找出距离最近的文章组成一个新的聚类，而且A，B确实是当前距离最近的文章，那么他们就无赖的被组合到了同一个聚类中。

非负矩阵因式分解（NNMF）

矩阵因式分解与整数影视分解形式上比较类似，就是将一个M(m*n)的矩阵分解成M1(m*i)*M2(i*n)的形式。M1的列是新的feature对原有行的贡献，M2的行是通过原有矩阵列组合成的feature。NNMF大致的算法框架如下：

NNMF无需训练，可以发现新的分类，对于文章而言发现文章的主题（一系列权重较大的词组）。

posted @ 2012-11-26 17:23 bourneli 阅读(373) 评论(0) 收藏举报

刷新页面返回顶部

bourneli(李伯韬)的技术博客