浅谈隐语义模型和非负矩阵分解NMF

本文从基础介绍隐语义模型和NMF.

隐语义模型

”隐语义模型“常常在推荐系统和文本分类中遇到，最初来源于IR领域的LSA(Latent Semantic Analysis),举两个case加快理解。

向用户推荐物品

在推荐系统中，可以通过隐含语义模型将用户（user）和物品（item）自动分类，这些类别是自动生成的。这些类别也可以叫做“隐含的分类”，也许看不懂。每个用户或者物品会被分到多个类别中，属于某个类别的权重会被计算出来。

假设现在有一个大小为m×n的评分矩阵V，包含了m个用户对n个物品的评分，评分从0到5，值越大代表越喜欢，0代表没有打分。设定共有r个隐含的分类。通过一些方法，将V展开为两个相乘的矩阵：

V = W*H

其中，W的大小为m×r，H的大小为r×n。在隐语义模型中，W(i,j)被解释为用户i属于类别j的权重，H(a,b)被解释为物品b属于类别a的的权重。

如果用户u对物品i没有评分，可以将这个评分r(u,i)预测为：

r(u,i) = sum(W(i, :) .* H(:, i))

据此可以构建一个推荐系统。

网易云音乐的推荐算法，应该如此。

文本分类

类似上面的推荐系统。词袋模型与文档-词矩阵中介绍过文档-词矩阵。将数据集中的一堆文本构造成文档-词矩阵V，如果共有m个文本，n个单词，那么V的大小为m×n。V(i,j)表示文档i中出现单词j的次数。

设定共有r个隐含的分类。通过一些方法，将V展开为两个相乘的矩阵：

V = W*H

其中，W的大小为m×r，H的大小为r×n。在隐语义模型中，W(i,j)被解释为文档i属于类别j的权重，H(a,b)被解释为单词b属于类别a的的权重。

对于一个文档，其权重最大的类别被看作是该文档的类别。由于设定共有r个隐含的分类，分类结果也是r个份分类。

NMF

NMF，全称为non-negative matrix factorization，翻译为“非负矩阵分解”，可以用于隐语义模型。非负矩阵，就是矩阵中的每个元素都是非负的。将非负矩阵V分解为两个非负矩阵W和H的乘，叫做非负矩阵分解。那么，该怎么分解呢？在下面的这篇论文里，给出了两个方法并给出了具体证明。

http://papers.nips.cc/paper/1861-algorithms-for-non-negative-matrix-factorization.pdf

posted @ 2016-03-01 17:52 XiaoliSmile 阅读(2166) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

xiaoli

浅谈隐语义模型和非负矩阵分解NMF

公告